2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата. Это в каком-то смысле ризонинг внутри latent space, только реализованный снова по глубине, а не по длине последовательности как у Coconut. И даже на моём примере с UT+memory в решении задач судоку модель скейлится сильно за пределы количества итераций, на котором она обучалась, и продолжает улучшать результат. В общем, я лично жду появления реально больших моделей с такими свойствами. Наверняка, конечно, в сочетании с другими современными улучшениями — sparse MoE, mHC, низкоразрядным обучением и квантованием (ещё лучше для edge!). В своём прогнозе на 2026 я как-то невнятно про рекуррентность написал, одним словом просто, но теперь исправляюсь!
2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для…
Из этого канала
- #5337"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep…
"Интересное на поразбираться и поприменять. A Theory of Generalization in Deep Learning Elon Litman, Gabe Guo Статья: https://arxiv.org/abs/2605.01172v1 Ревью:…
- #5343Новые ядра и формат упаковки для неструктурированной разреженности от Sakana +…
Новые ядра и формат упаковки для неструктурированной разреженности от Sakana + NVIDIA.
- #5348"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что…
"Гипотеза линейных репрезентаций всё. Очередная работа, показывающая, что концепты внутри сети лежат на нелинейном многообразии и интерполяция через евклидово…
- #5334Recursion strikes back Тема про рекурсию активно развивается в последний год.…
Recursion strikes back Тема про рекурсию активно развивается в последний год. Мне кажется, это уже становится трендом, который должен дать много полезного…
- #5330Ещё одна красивая история про забывание, но теперь с другой стороны — делаем…
Ещё одна красивая история про забывание, но теперь с другой стороны — делаем попараметрический weight decay для continual learning.