Утро первого января проходит так 🤔 Статья: https://arxiv.org/abs/2512.24880 Wenfeng проснулся утром 31-го декабря и выбрал релизнуть статью вместо нарезания китайских салатов.
Утро первого января проходит так 🤔 Статья: https://arxiv.org/abs/2512.24880…
Из этого канала
- #3243mHC: Manifold-Constrained Hyper-Connections DeepSeek переосмыслили residual…
mHC: Manifold-Constrained Hyper-Connections DeepSeek переосмыслили residual stream в трансформерах, развивая прошлогодние идеи исследователей из ByteDance.
- #3244И собственно всё это было сделано год назад ребятами из ByteDance. Они что-то…
И собственно всё это было сделано год назад ребятами из ByteDance. Они что-то пообучали, где-то у них получилось лучше, но шума не было, и, насколько мне…
- #3245Главных результата 2: 1) значение функции ошибки меньше, чем у обычного…
Главных результата 2: 1) значение функции ошибки меньше, чем у обычного трансформера, даже в пересчёте на количество вычислений при тренировке (все приёмы выше…
- #3241И отдельный пост для наших уважаемых скептиков — для предсказаний на 2026-й!…
И отдельный пост для наших уважаемых скептиков — для предсказаний на 2026-й! Тема предсказаний: какая наименее впечатляющая экономически ценная…
- #3240Sholto Douglas, отвечающий за масштабирование RL в Anthropic (отсюда): — Самым…
Sholto Douglas, отвечающий за масштабирование RL в Anthropic (отсюда): — Самым поразительным в следующем году станет то, что другие виды интеллектуального…