Главных результата 2: 1) значение функции ошибки меньше, чем у обычного трансформера, даже в пересчёте на количество вычислений при тренировке (все приёмы выше добавляют ~7% вычислений на шаг), то есть модель лучше предсказывает текст 2) что транслируется в приросты на бенчмарках Ждём в DeepSeekV4!
Главных результата 2: 1) значение функции ошибки меньше, чем у обычного…
Из этого канала
- #3247Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как…
Отдельно картинка с архитектурой. Слева — обычный residual, по центру — как было у ByteDance, и в чём собственно идея HyperConnection.
- #3248Первая новостная заметка от TheInformation в новом году: OpenAI наращивает…
Первая новостная заметка от TheInformation в новом году: OpenAI наращивает усилия по разработке аудио-моделей в преддверии выпуска новых девайсов.
- #3249DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models…
DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models (блог) Прикольная статья, показывающая новую (хотя думаю схожие работы были)…
- #3244И собственно всё это было сделано год назад ребятами из ByteDance. Они что-то…
И собственно всё это было сделано год назад ребятами из ByteDance. Они что-то пообучали, где-то у них получилось лучше, но шума не было, и, насколько мне…
- #3243mHC: Manifold-Constrained Hyper-Connections DeepSeek переосмыслили residual…
mHC: Manifold-Constrained Hyper-Connections DeepSeek переосмыслили residual stream в трансформерах, развивая прошлогодние идеи исследователей из ByteDance.