"И ещё про развитие ветки Universal Transformer (см.вчерашнее… — @gonzo_ML

"И ещё про развитие ветки Universal Transformer (см.вчерашнее https://t.me/gonzo_ML/5206). Интересно про трёхфазовый гроккинг: На ранних этапах обучения сеть просто запоминает данные. Дальнейшее обучение запускает фазовый переход к in-distribution обобщению, и, наконец, появляется систематическое out-of-distribution обобщение. Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers __Harsh Kohli, Srinivasan Parthasarathy, Huan Sun, Yuekun Yao__ Статья: https://arxiv.org/abs/2604.07822v1 Репа: https://github.com/OSU-NLP-Group/Loop-Think-Generalize Ревью: https://arxiviq.substack.com/p/loop-think-and-generalize-implicit # TL;DR ЧТО сделали: Оценивают, могут ли трансформеры с рекуррентной глубиной (зацикленные) выполнять неявные многошаговые рассуждения (implicit multi-hop reasoning) над параметрическими знаниями без явного CoT. Прогоняя входные данные через одни и те же слои много раз, модель выучивает правила и начинает систематически обобщаться на незнакомые комбинации фактов, а также экстраполировать логику на глубину, сильно превышающую ту, что была при обучении. ПОЧЕМУ это важно: Работа предлагает архитектурное решение проблемы композициональности, от которой страдают стандартные трансформеры. Перенося вычислительную нагрузку с фиксированного количества параметров (глубины) на динамическую рекуррентность во время инференса, авторы показывают масштабируемый механизм для скрытых рассуждений. Это доказывает, что модели могут внутренне разворачивать сложную логику, чтобы решать out-of-distribution задачи, просто ""думая"" дольше. Для практиков: Для тех, кто исследует масштабирование вычислений на инференсе, это отличная демонстрация того, как рекуррентные архитектуры обходят жёсткие ограничения обычных трансформеров на количество слоёв. За счёт стабилизации итеративного разворачивания и внедрения адаптивной остановки на основе энтропии, модель достигает отличной обобщающей способности через резкую фазу грокинга. При этом авторы честно показывают верхнюю границу такого скейлинга — чрезмерное обдумывание (overthinking), что задаёт стратегические рамки для применения test-time compute в базовых моделях. В глубины: https://t.me/gonzo_ML_podcasts/3279"

Из этого канала