Less is More: Recursive Reasoning with Tiny Networks Alexia Jolicoeur-Martineau… — @gonzo_ML

Less is More: Recursive Reasoning with Tiny Networks __Alexia Jolicoeur-Martineau__ Статья: https://arxiv.org/abs/2510.04871 Код: https://github.com/SamsungSAILMontreal/TinyRecursiveModels Недавно разобранная HRM (https://t.me/gonzo_ML/4097) продемонстрировала интересный результат с малым размером модели, при этом последующий анализ от организаторов ARC-AGI показал, что в первую очередь на результат влияет последовательное улучшение ответа (deep supervision), а рекурсия в H и L модулях добавляет не очень много. Новая работа про TRM (Tiny Recursive Model) ставит под сомнение необходимость всей этой сложности и исповедует философию — «меньше значит больше». Новая модель TRM содержит 5M-19M параметров (есть нюансы), против 27M у HRM И статью, и этот разбор есть смысл читать после того, как вы уже прочитали про HRM, потому что вся статья построена как систематический разбор HRM. Также постоянно следует помнить, что сравнение HRM/TRM с традиционными LLM во многом ущербно, это модели совсем разных классов. LLM -- довольно общие модели, обученные на всём интернете на задачах продолжения текста, включая сложные файнтюны на чат, инструкции, решение различных задач по математике и прочим дисциплинам и т.д. То, что при этом они способны ещё и решать судоку, лабиринты, тесты ARC-AGI -- для меня на самом деле довольно удивительно. Все современные LLM это трансформер-декодеры (есть гибриды с SSM, но здесь это не важно). HRM/TRM -- это трансформер-энкодер (как BERT), он не продолжает никакую последовательность токен за токеном, он обрабатывает все токены сразу и генерит новую последовательность той же длины, что и входная. HRM/TRM (в отличие от BERT, тоже обученного примерно на всём интернете) обучается только на одну конкретную задачу из списка, ни про какую универсальность здесь речи пока нет. Так что все восторженные посты в духе, что вот появилась модель в миллион раз меньшая по размеру и бьющая лучшие топовые LLM и скоро всем им кранты, дотацентры не нужны и прочее -- надо делить на тот же миллион, многие из авторов вообще не разобрались, что сделано. 🩼 Что было не так с HRM В HRM было несколько моментов, потенциально требующих улучшения. * Implicit Function Theorem (IFT) with 1-step gradient approximation: Есть вопрос про бэкпроп только через две из всех рекурсий (последнее состояние H и L), которым я также задавался. Нет уверенности, что IFT применима к данному кейсу с HRM. Вообще не факт, что неподвижная точка достигается. Авторы оригинальной работы использовали по два шага рекурсии на каждом из уровней (H и L), и получается, что HRM предполагала достижение неподвижной точки обоими модулями лишь после двух прямых проходов L, одного H и снова одного L. Это вызывает сомнения. * ACT (Adaptive Computation Time): уменьшало количество вычислений, но имело свою цену. Q-learning для значений продолжения/остановки требовал дополнительного прямого прохода через HRM. * Отсылки к биологии: Авторы создавали HRM изначально с отсылкой к биологическим процессам, и (корреляционно) подтверждали аналогию с реальным мозгом млеков. Это интересно, но не объясняет, почему HRM была сделана именно так как сделана. * Абляций сделано не было: а без них непонятно, насколько биологические аргументы и теорема о непрерывной точке реально играют, и какие из компонентов HRM важны и почему. Почему две латентных фичи, а не сколько-то ещё, тоже непонятно. Идея авторов работы про TRM -- можно упростить HRM и рекурсивный процесс в ней, и понять модель без необходимости в биологических аргументах, теоремах о непрерывной точке, иерархических интерпретаций и двух разных сетей. Заодно они объясняют, почему 2 -- это оптимальное количество фич (z_L и z_H). 🏗 Архитектура TRM Модель устроена так, что есть одна маленькая сеть, являющаяся по сути стандартным блоком трансформера: [self-attention, norm, MLP, norm]. В оригинальной идее таких блоков было 4 (но после экспериментов пришли к 2).

Из этого канала