Не было времени в прошлом разобрать статью про Titans, а тут те же авторы из Гугла выпустили свежую Nested Learning с архитектурой Hope, которая вариант Titans. Так что надо. Titans: Learning to Memorize at Test Time Authors: __Ali Behrouz, Peilin Zhong, and Vahab Mirrokni__ Paper: https://arxiv.org/abs/2501.00663 Review: https://arxiviq.substack.com/p/titans-learning-to-memorize-at-test # TL;DR Что сделали? В статье представлена Titans — новое семейство гибридных архитектур, разработанных для преодоления ограничений современных последовательных моделей по длине контекста. Ключевая инновация — это новый модуль нейронной долговременной памяти (Long-Term Memory Module, LMM), глубокий нелинейный рекуррентный модуль, который работает как meta in-context learner. Это означает, что LMM не просто обрабатывает данные, а на лету адаптивно учится тому, как запоминать и забывать информацию, оптимизируя собственные веса прямо во время инференса. Это достигается за счёт метрики «удивления» на основе градиента с моментом (momentum), что позволяет отслеживать и сохранять важные события, а также с помощью адаптивного механизма забывания, который предотвращает переполнение памяти. Авторы предлагают три варианта интеграции LMM с кратковременным механизмом внимания (MAC, MAG, MAL). Почему это важно? Titans устраняют критический разрыв между трансформерами, которые обеспечивают высокую точность, но страдают от квадратичной вычислительной сложности, и современными линейными рекуррентными моделями, которые эффективны, но с трудом сжимают очень длинные контексты без потери информации. Сочетая мощную, динамически обновляемую долговременную память с точным кратковременным вниманием, Titans демонстрируют SOTA-производительность на разнообразных бенчмарках. Особенно примечательно, что они достигают беспрецедентной эффективности в задачах с экстремально длинным контекстом, масштабируясь до более чем 2 миллионов токенов и превосходя гораздо более крупные модели, вроде GPT-4, на бенчмарке BABILong. Эта работа вводит новую парадигму для создания последовательных моделей с надёжной, адаптивной памятью, открывая путь к системам ИИ, способным эффективно обрабатывать и рассуждать над огромными объёмами данных, сопоставимыми с целыми документами. Подробнее: https://t.me/gonzo_ML_podcasts/1300
Не было времени в прошлом разобрать статью про Titans, а тут те же авторы из…
Из этого канала
- #4205Вот и до Nested Learning, Hope, Titans 2.0 добрались. Nested Learning: The…
Вот и до Nested Learning, Hope, Titans 2.0 добрались. Nested Learning: The Illusion of Deep Learning Architectures Ali Behrouz, Meisam Razaviyayn, Peiling…
- #4207Модифицированных машин Гёделя вам в ленту! ~~И медведь.~~ И Шмидхубера.…
Модифицированных машин Гёделя вам в ленту! ~~И медведь.~~ И Шмидхубера. Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the…
- #4209Я про датасеты редко пишу, но это что-то монстрическое и интересное…
Я про датасеты редко пишу, но это что-то монстрическое и интересное https://huggingface.co/datasets/builddotai/Egocentric-10K Egocentric-10K is the largest…
- #4202Вдруг вам хочется почитать чего-то забористого на выходных. Их есть у меня.…
Вдруг вам хочется почитать чего-то забористого на выходных. Их есть у меня. Недавняя конференция ALife 2025 опубликовала свои материалы: Proceedings of the…
- #4201Тут вышла свежая статья про AlphaEvolve с Теренсом Тао в соавторстве. В отличие…
Тут вышла свежая статья про AlphaEvolve с Теренсом Тао в соавторстве. В отличие от старой статьи разбирают большую кучу математических проблем.