Дело Universal Transformer (а на самом деле Adaptive Computation Time) живёт и… — @gonzo_ML

Дело Universal Transformer (а на самом деле Adaptive Computation Time) живёт и побеждает! A Mechanistic Analysis of Looped Reasoning Language Models __Hugh Blayney, Álvaro Arroyo, Johan Obando-Ceron, Pablo Samuel Castro, Aaron Courville, Michael Bronstein, Xiaowen Dong__ Статья: https://arxiv.org/abs/2604.11791v1 Код: https://github.com/TrelisResearch/nanochat/tree/recursive Ревью: https://arxiviq.substack.com/p/a-mechanistic-analysis-of-looped # TL;DR ЧТО сделали: Авторы провели глубокий механистический анализ зацикленных (looped) языковых моделей — архитектур, которые масштабируют вычисления на инференсе за счёт многократного применения одних и тех же блоков трансформера. Они теоретически доказали и эмпирически подтвердили, что такие циклические сети естественно сходятся к чётким неподвижным точкам (fixed points) в латентном пространстве, самоорганизуясь в предсказуемые стадии вывода, которые зеркально отражают функциональную глубину стандартных feedforward моделей. ПОЧЕМУ это важно: Пока индустрия активно движется к адаптивным способностям рассуждения через масштабирование вычислений на инференсе, критически важно понимать внутреннюю динамику рекуррентной глубины. Показав, что зацикленные модели отвязывают функциональные стадии рассуждения от физического количества параметров, исследователи дали теоретическую базу для создания крайне параметрически эффективных рассуждающих моделей. Это позволяет избежать типичной для рекуррентных сетей деградации в виде чрезмерного обдумывания (overthinking). Для практиков: Предсказуемая природа циклических стадий вывода открывает путь к мощным оптимизациям. Например, можно агрессивно разреживать внимание на стабильных стадиях перемешивания контекста или сжимать промежуточные репрезентации в циклических MLP, получая сильные модели без раздувания вычислительного бюджета и памяти. Думать мысли тут: https://t.me/gonzo_ML_podcasts/3251

Из этого канала