Главных результата 2: 1) значение функции ошибки меньше, чем у обычного…

1 янв. 2026 г.18 541 views60 forwardsОткрыть в Telegram →

Главных результата 2: 1) значение функции ошибки меньше, чем у обычного трансформера, даже в пересчёте на количество вычислений при тренировке (все приёмы выше добавляют ~7% вычислений на шаг), то есть модель лучше предсказывает текст 2) что транслируется в приросты на бенчмарках Ждём в DeepSeekV4!

Источник

https://t.me/seeallochnaya/3245

Канал Сиолошная · опубликовано 1 янв. 2026 г.

Из этого канала

#3247Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как…
Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как было у ByteDance, и в чём собственно идея HyperConnection.
#3248Первая новостная заметка от TheInformation в новом году: OpenAI наращивает…
Первая новостная заметка от TheInformation в новом году: OpenAI наращивает усилия по разработке аудио-моделей в преддверии выпуска новых девайсов.
#3249DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models…
DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models (блог) Прикольная статья, показывающая новую (хотя думаю схожие работы были)…
#3244И собственно всё это было сделано год назад ребятами из ByteDance. Они что-то…
И собственно всё это было сделано год назад ребятами из ByteDance. Они что-то пообучали, где-то у них получилось лучше, но шума не было, и, насколько мне…
#3243mHC: Manifold-Constrained Hyper-Connections DeepSeek переосмыслили residual…
mHC: Manifold-Constrained Hyper-Connections DeepSeek переосмыслили residual stream в трансформерах, развивая прошлогодние идеи исследователей из ByteDance.