Не было времени в прошлом разобрать статью про Titans, а тут те же авторы из… — @gonzo_ML

Не было времени в прошлом разобрать статью про Titans, а тут те же авторы из Гугла выпустили свежую Nested Learning с архитектурой Hope, которая вариант Titans. Так что надо. Titans: Learning to Memorize at Test Time Authors: __Ali Behrouz, Peilin Zhong, and Vahab Mirrokni__ Paper: https://arxiv.org/abs/2501.00663 Review: https://arxiviq.substack.com/p/titans-learning-to-memorize-at-test # TL;DR Что сделали? В статье представлена Titans — новое семейство гибридных архитектур, разработанных для преодоления ограничений современных последовательных моделей по длине контекста. Ключевая инновация — это новый модуль нейронной долговременной памяти (Long-Term Memory Module, LMM), глубокий нелинейный рекуррентный модуль, который работает как meta in-context learner. Это означает, что LMM не просто обрабатывает данные, а на лету адаптивно учится тому, как запоминать и забывать информацию, оптимизируя собственные веса прямо во время инференса. Это достигается за счёт метрики «удивления» на основе градиента с моментом (momentum), что позволяет отслеживать и сохранять важные события, а также с помощью адаптивного механизма забывания, который предотвращает переполнение памяти. Авторы предлагают три варианта интеграции LMM с кратковременным механизмом внимания (MAC, MAG, MAL). Почему это важно? Titans устраняют критический разрыв между трансформерами, которые обеспечивают высокую точность, но страдают от квадратичной вычислительной сложности, и современными линейными рекуррентными моделями, которые эффективны, но с трудом сжимают очень длинные контексты без потери информации. Сочетая мощную, динамически обновляемую долговременную память с точным кратковременным вниманием, Titans демонстрируют SOTA-производительность на разнообразных бенчмарках. Особенно примечательно, что они достигают беспрецедентной эффективности в задачах с экстремально длинным контекстом, масштабируясь до более чем 2 миллионов токенов и превосходя гораздо более крупные модели, вроде GPT-4, на бенчмарке BABILong. Эта работа вводит новую парадигму для создания последовательных моделей с надёжной, адаптивной памятью, открывая путь к системам ИИ, способным эффективно обрабатывать и рассуждать над огромными объёмами данных, сопоставимыми с целыми документами. Подробнее: https://t.me/gonzo_ML_podcasts/1300

Из этого канала