Дело Universal Transformer (а на самом деле Adaptive Computation Time) живёт и побеждает! A Mechanistic Analysis of Looped Reasoning Language Models __Hugh Blayney, Álvaro Arroyo, Johan Obando-Ceron, Pablo Samuel Castro, Aaron Courville, Michael Bronstein, Xiaowen Dong__ Статья: https://arxiv.org/abs/2604.11791v1 Код: https://github.com/TrelisResearch/nanochat/tree/recursive Ревью: https://arxiviq.substack.com/p/a-mechanistic-analysis-of-looped # TL;DR ЧТО сделали: Авторы провели глубокий механистический анализ зацикленных (looped) языковых моделей — архитектур, которые масштабируют вычисления на инференсе за счёт многократного применения одних и тех же блоков трансформера. Они теоретически доказали и эмпирически подтвердили, что такие циклические сети естественно сходятся к чётким неподвижным точкам (fixed points) в латентном пространстве, самоорганизуясь в предсказуемые стадии вывода, которые зеркально отражают функциональную глубину стандартных feedforward моделей. ПОЧЕМУ это важно: Пока индустрия активно движется к адаптивным способностям рассуждения через масштабирование вычислений на инференсе, критически важно понимать внутреннюю динамику рекуррентной глубины. Показав, что зацикленные модели отвязывают функциональные стадии рассуждения от физического количества параметров, исследователи дали теоретическую базу для создания крайне параметрически эффективных рассуждающих моделей. Это позволяет избежать типичной для рекуррентных сетей деградации в виде чрезмерного обдумывания (overthinking). Для практиков: Предсказуемая природа циклических стадий вывода открывает путь к мощным оптимизациям. Например, можно агрессивно разреживать внимание на стабильных стадиях перемешивания контекста или сжимать промежуточные репрезентации в циклических MLP, получая сильные модели без раздувания вычислительного бюджета и памяти. Думать мысли тут: https://t.me/gonzo_ML_podcasts/3251
Дело Universal Transformer (а на самом деле Adaptive Computation Time) живёт и…
Из этого канала
- #5209Это нельзя не запостить прямо щас. Чуваки проанализировали и разобрали утекший…
Это нельзя не запостить прямо щас. Чуваки проанализировали и разобрали утекший код Клод кода и анализируют как устроен агент такого рода. Интересное чтиво.
- #5219"И ещё про развитие ветки Universal Transformer (см.вчерашнее…
"И ещё про развитие ветки Universal Transformer (см.вчерашнее https://t.me/gonzoML/5206).
- #5224Давно мы про табличный ML не писали! Selecting Feature Interactions for…
Давно мы про табличный ML не писали! Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models Jingyun Jia, Chandan Singh,…
- #5205Начало холивара детектед! 😁 https://x.com/fchollet/status/2045524796298101077
Начало холивара детектед! 😁 https://x.com/fchollet/status/2045524796298101077
- #5196Третий эксперимент про регенерацию — если повредить финальное состояние модели…
Третий эксперимент про регенерацию — если повредить финальное состояние модели (пять разных способов), восстановит ли модель его? Ящерица, неожиданно, делает…