Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как было у ByteDance, и в чём собственно идея HyperConnection. Обратите внимание, что x_l теперь не 1, а 4 — это как раз увеличения количества стримов, по которым течёт информация. Самый-самый TLDR: вместо 1 эмбеддинга теперь 4, но каждый слой всё равно обрабатывает лишь один, так что вычислений не сильно больше.