Оба модуля, H и L, реализованы с использованием современных блоков… — @gonzo_ML

Оба модуля, H и L, реализованы с использованием современных блоков трансформер-энкодера (привет, BERT!), включающих такие улучшения, как Rotary Positional Encoding (RoPE), Gated Linear Units (GLU) (https://arxiv.org/abs/2002.05202) и RMSNorm в Post-Norm архитектуре. На входе и выходе последовательности токенов длины `l`. Модули комбинируются через простое поэлементное сложение, что легко поскольку их архитектуры идентичны. В будущем планируют более хитрые комбинации, например, с гейтингом. Модель не является LLM, обученной на всём интернете (более того, она вообще не декодер, а энкодер), и обучается на конкретные задачи: ARC-AGI-1 и -2, Sudoku-Extreme размером 9x9 с особо сложными паззлами (всего 3.8M, из которых для обучения отобраны 1000 штук), Maze-Hard 30x30 (тоже по 1000 в трейне и тесте). 📊 Результаты Результаты экспериментов впечатляют. Обученная с нуля всего на ~1000 примерах на задачу и имея лишь 27М параметров, HRM демонстрирует очень высокую производительность там, где гораздо более крупные модели терпят неудачу. Для ARC-AGI было множество аугментаций с поворотами, сдвигами и т.п. тестовых примеров. Для судоку много перестановок. Для лабиринтов ничего не делалось. В сложных символьных задачах, таких как Sudoku-Extreme и Maze-Hard, которые требуют обширного поиска и возврата, HRM достигает высокой точности в 55% и 74.5%. В то же время, state-of-the-art CoT-модели полностью проваливаются, набирая 0%, как и Direct pred — замена HRM на трансформер аналогичного размера с 8 слоями и обученный на аналогичных данных. На бенчмарке ARC-AGI-1, тесте на общий подвижный интеллект, HRM достигает 40.3% точности, значительно превосходя более крупные CoT-модели, такие как o3-mini-high (34.5%) и Claude 3.7 (21.2%), а также Direct pred с 21%. На ARC-AGI-2 гордые 5%, но у o3-mini-high только 3%, у остальных ещё меньше, у Direct Pred 0%. Эксперименты с обучением на полном датасете судоку (который 3.8M) показывают, что во-первых, увеличение глубины важно (рис.2) и скейлинг глубины трансформера при фиксированной ширине приводит к заметному улучшению, а увеличение ширины при фиксированной глубине вообще не помогает. Во-вторых, в то время как производительность стандартного а также рекуррентного (детали имплементации не понял) трансформера достигает плато с увеличением глубины, HRM эффективно использует свою рекуррентную глубину для решения сложных проблем и достигает почти 100%. Правда для HRM даны всего три точки, интересно как он себя в начале графика вёл бы. Визуализации промежуточных шагов модели показывают адаптивные стратегии рассуждений. Для лабиринта это параллельное исследование нескольких путей и отсев заблокированных или неэффективных, затем создание предварительного варианта и его уточнение. В судоку это напоминает поиск в глубину с возвратом. Для задач ARC это инкрементальные добавления к доске и итеративное улучшение без бэктрекинга и напоминающее метод восхождения к вершине. То есть для разных задач выучивает разные стратегии. 🤯 Эмерджентная структура, похожая на мозг Интересная секция статьи под названием Brain Correspondence. Возможно, самое глубокое открытие — это появление в обученной модели структуры, правдоподобной с точки зрения нейронауки, что служит подтверждением её основных принципов проектирования. Авторы вдохновлялись функцией мозга (иерархическая обработка на разных временных масштабах), и, что примечательно, обученная модель спонтанно выработала ключевую особенность физической структуры мозга (иерархию размерности представлений). Авторы проанализировали эффективную размерность скрытых состояний H- и L-модулей, используя коэффициент участия (Participation Ratio, PR), и получили следующие результаты: * Высокоуровневый (H) модуль развивает высокоразмерное представление большой ёмкости (PR ≈ 89.95), которое масштабируется с разнообразием задач. * Низкоуровневый (L) модуль поддерживает стабильное, низкоразмерное представление (PR ≈ 30.22).

Из этого канала