Universal Reasoning Model Zitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao,… — @gonzo_ML

Universal Reasoning Model __Zitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao, Haoming Luo, Joey Zhou, Bryan Dai__ Статья: https://www.arxiv.org/abs/2512.14693 Код: https://github.com/zitian-gao/URM Молодцы чуваки, сделали ровно то, что я сам хотел сделать после статей про HRM/TRM. Там прямо просилось взять UT, или по сути ALBERT с ACT и посмотреть, какое качество достигается на нём. Было очень сильное чувство, что не нужно городить HRM/TRM. Мои изыскания закончились на окончании гуглового кредита и машин с GPU, а также свободного времени. А их вон, в статью вылились. Хорошо быть GPU-Rich 😭 Напомню, что HRM (https://t.me/gonzo_ML/4097) предложила вдохновлённую мозгом иерархию сетей с высокоуровневым и низкоуровневым модулями. Последующие разборы от авторов ARC-AGI показали, что чуть ли не самое важное в работе было deep supervision, который делал много итераций на одном сэмпле, последовательно улучшая репрезентацию (похоже на recycling в alphafold), поверх этого ещё был навёрнут adaptive computation time, чтобы делать этот процесс не дольше, чем нужно. А два уровня с рекурсиями нафиг не сдались, обычный трансформер того же достигает плюс минус. Там я и написал, что UT или ALBERT — наше всё (https://t.me/gonzo_ML/4100). Потом вышла упрощённая TRM (https://t.me/gonzo_ML/4127), которая переинтерпретировала HRM и упаковала это всё в почти обычный рекуррентный трансформер, который сначала обновляет внутреннюю репрезентацию, а потом уточняет по ней ответ, и поверх делается всё тот же deep supervision. Из обучаемых параметров там была только двуслойная сеть, которая применялась во всех этих циклах и давала эффективную глубину в 42 слоя. Это ещё ближе к UT/ALBERT. Напомню в двух словах про Universal Transformer (UT) и ALBERT. UT (https://t.me/gonzo_ML/90) состоит из одного шаренного слоя, который рекурсивно применяется множество раз, последовательно улучшая эмбеддинги. В самой полноценной версии количество раз определяется динамически через Adaptive Computation Time (ACT), которое для каждого конкретного токена решало, сколько его надо обрабатывать. Я до сих пор считаю, что это очень красивая и недооценённая идея, вернее эти две, UT и ACT. ALBERT (https://t.me/gonzo_ML/131) был сильно идейно похож на UT с той лишь разницей, что один слой там применялся фиксированное количество раз и это был трансформер-энкодер. В этом моём посте собрано всё воедино и с картинками. Поскольку HRM и TRM были энкодерами с ACT, то просилось, конечно, взять ALBERT+ACT и дотюнить его до состояния, когда он даст результаты не хуже. Авторы текущей работы тоже вдохновлялись UT и предложили URM (Universal Reasoning Model) по его лекалам. Пишут, что взяли decoder-only (__“The base architecture of our Universal Reasoning Model (URM) closely follows that of the Universal Transformer, with the difference being its decoder-only design. This aspect is consistent with previous works such as HRM and TRM”__), но мне кажется это ошибка. HRM/TRM были энкодерами (в работе про HRM явно говорят: __“Both the low-level and high-level recurrent modules f_L and f_H are implemented using encoder-only Transformer blocks with identical architectures and dimensions”__, а TRM строится на ней) и нигде там авторегрессионной генерации нет, ни в статье, ни в коде. И в целом для этой задачи декодер не нужен, размер выхода заранее известен и фиксирован, энкодер был бы логичен. Так что видимо, опечатка. В отличие от TRM/HRM авторы URM сделали более кастомный трансформер с ConvSwiGLU и Truncated Backpropagation Through Loops (TBPTL). ConvSwiGLU — это стандартный SwiGLU с короткой depthwise свёрткой. Обычный SwiGLU работает с каждым токеном независимо, свёртка добавляет в механизм гейтинга локальные контекстные взаимодействия, реализуя смешивание каналов для соседних токенов. Напомню, что уже классический SwiGLU — это функция с гейтингом. Сначала для каждого токена вычисляется преобразование через матрицу W_up: [G, U] = X W_up ∈ R^{T×2m} Затем из G через активацию SiLU считаются веса гейтов, которые поэлементно умножаются с U: H_ffn = SiLU(G) ⊙ U

Из этого канала