Вот и до Nested Learning, Hope, Titans 2.0 добрались. Nested Learning: The Illusion of Deep Learning Architectures __Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, Vahab Mirrokni__ Paper: https://abehrouz.github.io/files/NL.pdf Blog: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/ Review: https://arxiviq.substack.com/p/nested-learning-the-illusion-of-deep # TL;DR 📝 Что сделано? В статье представлено Nested Learning (NL, вложенное обучение) — новая теоретическая парадигма, которая переосмысливает модели машинного обучения и процедуры их обучения как интегрированную систему вложенных, многоуровневых оптимизационных задач. Каждый компонент в этой иерархии оперирует собственным «потоком контекста» — например, потоком выборок данных или градиентов — и имеет свою частоту обновления. Такой «white-box» взгляд показывает, что существующие методы глубокого обучения работают за счёт сжатия контекста. В рамках этой парадигмы авторы делают три основных вклада: (1) Deep Optimizers — концепция, которая интерпретирует оптимизаторы вроде SGD с моментом как обучаемые, многоуровневые модули памяти, сжимающие градиенты; (2) Continuum Memory System (CMS) — система, обобщающая краткосрочную и долгосрочную память в иерархию блоков памяти, обновляющихся в разных временных масштабах; и (3) HOPE (или Self-Modifying Titans) — новая самомодифицирующаяся архитектура для последовательностей, которая объединяет эти принципы и достигает передовых результатов. 🤔 Почему это важно? Вложенное обучение предлагает принципиальное, вдохновлённое нейронаукой решение одной из самых больших проблем в ИИ — статичности больших языковых моделей (LLM). Вместо «иллюзии» простого нагромождения слоёв, NL предоставляет математическую основу для создания моделей, способных к непрерывному обучению, самосовершенствованию и рассуждениям в контексте (in-context reasoning) более высокого порядка. Эта работа смещает фокус с эвристического конструирования архитектур на целенаправленное проектирование систем памяти с несколькими временными масштабами. Итоговая архитектура HOPE демонстрирует превосходство над сильными бейзлайнами, такими как трансформеры и её предшественник Titans, указывая на будущее, в котором ИИ-системы станут более адаптивными, эффективными и смогут преодолеть «амнезию», присущую текущим моделям. Подробнее: https://t.me/gonzo_ML_podcasts/1317
Вот и до Nested Learning, Hope, Titans 2.0 добрались. Nested Learning: The…
Из этого канала
- #4207Модифицированных машин Гёделя вам в ленту! ~~И медведь.~~ И Шмидхубера.…
Модифицированных машин Гёделя вам в ленту! ~~И медведь.~~ И Шмидхубера. Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the…
- #4209Я про датасеты редко пишу, но это что-то монстрическое и интересное…
Я про датасеты редко пишу, но это что-то монстрическое и интересное https://huggingface.co/datasets/builddotai/Egocentric-10K Egocentric-10K is the largest…
- #4210Работа про Continuous Autoregressive Language Models. Генерим непрерывный…
Работа про Continuous Autoregressive Language Models. Генерим непрерывный вектор, из которого через VAE восстанавливаем сразу K токенов (например, 4).
- #4204Не было времени в прошлом разобрать статью про Titans, а тут те же авторы из…
Не было времени в прошлом разобрать статью про Titans, а тут те же авторы из Гугла выпустили свежую Nested Learning с архитектурой Hope, которая вариант…
- #4202Вдруг вам хочется почитать чего-то забористого на выходных. Их есть у меня.…
Вдруг вам хочется почитать чего-то забористого на выходных. Их есть у меня. Недавняя конференция ALife 2025 опубликовала свои материалы: Proceedings of the…