"💀 Исторический контекст Идеи HRM имеют глубокие корни, и стоит посмотреть на предшественников чтобы понять, что тут хорошо забытое старое. - Neural History Compressor (Шмидхубер, 1991-1992) Ещё в начале 90-х Юрген Шмидхубер предложил Neural History Compressor (https://gwern.net/doc/ai/nn/rnn/1992-schmidhuber.pdf) — иерархию рекуррентных сетей, обученных предсказывать свои входы на множественных самоорганизующихся временных масштабах. Ключевая идея: каждая RNN в стеке учится предсказывать свой следующий вход, и только неожиданные входы (ошибки предсказания) передаются на следующий, более высокий уровень, который работает медленнее. Информация сжимается, но не теряется — просто переходит на другой временной масштаб. Механизм удивительно похож на иерархическую сходимость в HRM: низкий уровень работает быстро и обрабатывает детали, высокий — медленно и управляет общей стратегией. Шмидхубер даже предложил ""collapsed"" версию с двумя сетями — chunker (высокий уровень) и automatizer (низкий уровень) — прямо как H и L модули в HRM. - Clockwork RNN (Koutník et al., 2014) Спустя 20+ лет команда Koutník, Greff, Gomez, Шмидхубер представила Clockwork RNN (https://arxiv.org/abs/1402.3511) — более практичную реализацию многомасштабной идеи. Скрытый слой делится на модули, каждый из которых обрабатывает входы на своей ""тактовой частоте"" — некоторые обновляются каждый шаг, другие раз в 2, 4, 8 шагов и т.д. Получается естественное разделение на быстрые и медленные процессы.HRM явно ссылается на Clockwork RNN и является её логическим продолжением, но с важными улучшениями: (1) не фиксированные частоты, а адаптивная сходимость, (2) современные трансформерные блоки вместо простых RNN, (3) эффективное обучение без BPTT через DEQ-подход. - Fast Weights (Хинтон, 1987/2016) Джеффри Хинтон предложил концепцию ""быстрых весов"" ещё в 1987, а затем вернулся к ней в 2016 с Ba et al. (https://arxiv.org/abs/1610.06258). Идея: у каждого соединения два компонента весов — медленные (long-term memory, учатся и затухают медленно) и быстрые (short-term memory, учатся и затухают быстро). Это позволяет эффективно хранить временную память недавнего прошлого без копирования паттернов активаций. Хотя технически это реализовано иначе (в HRM разделение на уровне модулей, а не весов), концептуально очень близко: быстрые процессы для краткосрочного контекста, медленные для долгосрочного планирования. Причём Хинтон явно мотивировал это биологией — синапсы имеют динамику на разных временных масштабах. - Другие связанные работы * Hierarchical Sequential Models (Hihi & Bengio, 1996) — ранняя попытка захватывать long-range dependencies через иерархию * Hierarchical Multiscale RNN (Chung et al., 2016) — более поздняя работа, где медленный LSTM получает входы реже * здесь ещё могло бы быть много других работ Интересно, что идеи hierarchical RNN с разными временными масштабами появлялись снова и снова на протяжении 30+ лет, но только сейчас, с правильным сочетанием техник, они показывают впечатляющие результаты. Возможно, время этих архитектур наконец-то пришло. Прикольная, короче, работа. Она уже повлияла на другую свежую нашумевшую работу ""Less is More: Recursive Reasoning with Tiny Networks"" (https://arxiv.org/abs/2510.04871) про Tiny Recursive Model (TRM). Её планирую разобрать следующей."
"💀 Исторический контекст Идеи HRM имеют глубокие корни, и стоит посмотреть на…
Из этого канала
- #4119"Если вдруг вы пропустили, пара полезных ресурсов про Agentic AI 1. ""Agentic…
"Если вдруг вы пропустили, пара полезных ресурсов про Agentic AI 1. ""Agentic AI"" course by Andrew Ng https://www.deeplearning.ai/courses/agentic-ai/ 2.
- #4120Mamba 3 анонимно проникает на ICLR 2026. Планирую разбор после TRM.…
Mamba 3 анонимно проникает на ICLR 2026. Планирую разбор после TRM. https://openreview.net/forum?id=HwCvaJOiCj Mamba3 just silently dropped on ICLR🤯 A faster,…
- #4121Больше хороших референсных имплементаций! https://github.com/karpathy/nanochat…
Больше хороших референсных имплементаций! https://github.com/karpathy/nanochat This repo is a full-stack implementation of an LLM like ChatGPT in a single,…
- #4100Эта эмерджентная иерархия, отсутствующая в необученной сети, точно отражает…
Эта эмерджентная иерархия, отсутствующая в необученной сети, точно отражает организацию размерностей, наблюдаемую в коре млекопитающих, где ассоциативные…
- #4099Оба модуля, H и L, реализованы с использованием современных блоков…
Оба модуля, H и L, реализованы с использованием современных блоков трансформер-энкодера (привет, BERT!), включающих такие улучшения, как Rotary Positional…