Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как…

1 янв. 2026 г.22 701 views76 forwardsОткрыть в Telegram →

Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как было у ByteDance, и в чём собственно идея HyperConnection. Обратите внимание, что x_l теперь не 1, а 4 — это как раз увеличения количества стримов, по которым течёт информация. Самый-самый TLDR: вместо 1 эмбеддинга теперь 4, но каждый слой всё равно обрабатывает лишь один, так что вычислений не сильно больше.

Источник

https://t.me/seeallochnaya/3247

Канал Сиолошная · опубликовано 1 янв. 2026 г.

Из этого канала