Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как было у ByteDance, и в чём собственно идея HyperConnection. Обратите внимание, что x_l теперь не 1, а 4 — это как раз увеличения количества стримов, по которым течёт информация. Самый-самый TLDR: вместо 1 эмбеддинга теперь 4, но каждый слой всё равно обрабатывает лишь один, так что вычислений не сильно больше.
Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как…
Из этого канала
- #3248Первая новостная заметка от TheInformation в новом году: OpenAI наращивает…
Первая новостная заметка от TheInformation в новом году: OpenAI наращивает усилия по разработке аудио-моделей в преддверии выпуска новых девайсов.
- #3249DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models…
DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models (блог) Прикольная статья, показывающая новую (хотя думаю схожие работы были)…
- #3254ВОСЕМЬ советов от создателя Claude Code, чтобы перестать вайбкодить в Новом…
ВОСЕМЬ советов от создателя Claude Code, чтобы перестать вайбкодить в Новом году и стать 10x инженером: 1) Запускать 5 терминалов в параллель + 5-10 вкладок на…
- #3245Главных результата 2: 1) значение функции ошибки меньше, чем у обычного…
Главных результата 2: 1) значение функции ошибки меньше, чем у обычного трансформера, даже в пересчёте на количество вычислений при тренировке (все приёмы выше…
- #3244И собственно всё это было сделано год назад ребятами из ByteDance. Они что-то…
И собственно всё это было сделано год назад ребятами из ByteDance. Они что-то пообучали, где-то у них получилось лучше, но шума не было, и, насколько мне…