"И ещё про развитие ветки Universal Transformer (см.вчерашнее https://t.me/gonzo_ML/5206). Интересно про трёхфазовый гроккинг: На ранних этапах обучения сеть просто запоминает данные. Дальнейшее обучение запускает фазовый переход к in-distribution обобщению, и, наконец, появляется систематическое out-of-distribution обобщение. Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers __Harsh Kohli, Srinivasan Parthasarathy, Huan Sun, Yuekun Yao__ Статья: https://arxiv.org/abs/2604.07822v1 Репа: https://github.com/OSU-NLP-Group/Loop-Think-Generalize Ревью: https://arxiviq.substack.com/p/loop-think-and-generalize-implicit # TL;DR ЧТО сделали: Оценивают, могут ли трансформеры с рекуррентной глубиной (зацикленные) выполнять неявные многошаговые рассуждения (implicit multi-hop reasoning) над параметрическими знаниями без явного CoT. Прогоняя входные данные через одни и те же слои много раз, модель выучивает правила и начинает систематически обобщаться на незнакомые комбинации фактов, а также экстраполировать логику на глубину, сильно превышающую ту, что была при обучении. ПОЧЕМУ это важно: Работа предлагает архитектурное решение проблемы композициональности, от которой страдают стандартные трансформеры. Перенося вычислительную нагрузку с фиксированного количества параметров (глубины) на динамическую рекуррентность во время инференса, авторы показывают масштабируемый механизм для скрытых рассуждений. Это доказывает, что модели могут внутренне разворачивать сложную логику, чтобы решать out-of-distribution задачи, просто ""думая"" дольше. Для практиков: Для тех, кто исследует масштабирование вычислений на инференсе, это отличная демонстрация того, как рекуррентные архитектуры обходят жёсткие ограничения обычных трансформеров на количество слоёв. За счёт стабилизации итеративного разворачивания и внедрения адаптивной остановки на основе энтропии, модель достигает отличной обобщающей способности через резкую фазу грокинга. При этом авторы честно показывают верхнюю границу такого скейлинга — чрезмерное обдумывание (overthinking), что задаёт стратегические рамки для применения test-time compute в базовых моделях. В глубины: https://t.me/gonzo_ML_podcasts/3279"
"И ещё про развитие ветки Universal Transformer (см.вчерашнее…
Из этого канала
- #5224Давно мы про табличный ML не писали! Selecting Feature Interactions for…
Давно мы про табличный ML не писали! Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models Jingyun Jia, Chandan Singh,…
- #5228Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора…
Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора <навык модели> <сложность промпта> <особенности оценщика> мы сначала выучиваем…
- #5232"Шажок на пути к автоматической науке GIANTS: Generative Insight Anticipation…
"Шажок на пути к автоматической науке GIANTS: Generative Insight Anticipation from Scientific Literature Joy He-Yueya, Anikait Singh, Ge Gao, Michael Y.
- #5209Это нельзя не запостить прямо щас. Чуваки проанализировали и разобрали утекший…
Это нельзя не запостить прямо щас. Чуваки проанализировали и разобрали утекший код Клод кода и анализируют как устроен агент такого рода. Интересное чтиво.
- #5206Дело Universal Transformer (а на самом деле Adaptive Computation Time) живёт и…
Дело Universal Transformer (а на самом деле Adaptive Computation Time) живёт и побеждает! A Mechanistic Analysis of Looped Reasoning Language Models Hugh…