Вот и до Nested Learning, Hope, Titans 2.0 добрались. Nested Learning: The Illusion of Deep Learning Architectures __Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, Vahab Mirrokni__ Paper: https://abehrouz.github.io/files/NL.pdf Blog: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/ Review: https://arxiviq.substack.com/p/nested-learning-the-illusion-of-deep # TL;DR 📝 Что сделано? В статье представлено Nested Learning (NL, вложенное обучение) — новая теоретическая парадигма, которая переосмысливает модели машинного обучения и процедуры их обучения как интегрированную систему вложенных, многоуровневых оптимизационных задач. Каждый компонент в этой иерархии оперирует собственным «потоком контекста» — например, потоком выборок данных или градиентов — и имеет свою частоту обновления. Такой «white-box» взгляд показывает, что существующие методы глубокого обучения работают за счёт сжатия контекста. В рамках этой парадигмы авторы делают три основных вклада: (1) Deep Optimizers — концепция, которая интерпретирует оптимизаторы вроде SGD с моментом как обучаемые, многоуровневые модули памяти, сжимающие градиенты; (2) Continuum Memory System (CMS) — система, обобщающая краткосрочную и долгосрочную память в иерархию блоков памяти, обновляющихся в разных временных масштабах; и (3) HOPE (или Self-Modifying Titans) — новая самомодифицирующаяся архитектура для последовательностей, которая объединяет эти принципы и достигает передовых результатов. 🤔 Почему это важно? Вложенное обучение предлагает принципиальное, вдохновлённое нейронаукой решение одной из самых больших проблем в ИИ — статичности больших языковых моделей (LLM). Вместо «иллюзии» простого нагромождения слоёв, NL предоставляет математическую основу для создания моделей, способных к непрерывному обучению, самосовершенствованию и рассуждениям в контексте (in-context reasoning) более высокого порядка. Эта работа смещает фокус с эвристического конструирования архитектур на целенаправленное проектирование систем памяти с несколькими временными масштабами. Итоговая архитектура HOPE демонстрирует превосходство над сильными бейзлайнами, такими как трансформеры и её предшественник Titans, указывая на будущее, в котором ИИ-системы станут более адаптивными, эффективными и смогут преодолеть «амнезию», присущую текущим моделям. Подробнее: https://t.me/gonzo_ML_podcasts/1317