2) test-time scaling из коробки — часто можно погонять рекурсию поглубже для получения более качественного результата. Это в каком-то смысле ризонинг внутри latent space, только реализованный снова по глубине, а не по длине последовательности как у Coconut. И даже на моём примере с UT+memory в решении задач судоку модель скейлится сильно за пределы количества итераций, на котором она обучалась, и продолжает улучшать результат. В общем, я лично жду появления реально больших моделей с такими свойствами. Наверняка, конечно, в сочетании с другими современными улучшениями — sparse MoE, mHC, низкоразрядным обучением и квантованием (ещё лучше для edge!). В своём прогнозе на 2026 я как-то невнятно про рекуррентность написал, одним словом просто, но теперь исправляюсь!