Любопытная работа про память RNN и подобных линейных моделей. Memory Caching:… — @gonzo_ML

Любопытная работа про память RNN и подобных линейных моделей. Memory Caching: RNNs with Growing Memory __Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni__ Статья: https://arxiv.org/abs/2602.24281 Ревью: https://arxiviq.substack.com/p/memory-caching-rnns-with-growing # TL;DR ЧТО сделали: Авторы предлагают фреймворк Memory Caching (MC). Он разбивает входные последовательности на дискретные сегменты и кэширует сжатые состояния памяти (чекпоинты) рекуррентных нейросетей в конце каждого из них. Благодаря механизмам роутинга и гейтирования, текущие токены могут избирательно обращать внимание (attend) как на активную онлайн-память, так и на релевантное подмножество исторических закэшированных состояний. __Довольно сильно похоже на Hierarchical Sparse Attention (____https://t.me/gonzo_ML_podcasts/1574____), но они на неё даже не ссылаются.__ __Может быть в комбинации с Titans (____https://t.me/gonzo_ML_podcasts/1300__)__.__ ПОЧЕМУ это важно: Рекуррентные нейросети (RNN) теоретически ограничены фиксированным объёмом памяти. Это заставляет их неизбежно перезаписывать прошлую информацию, что сильно бьёт по качеству на задачах, требующих точного извлечения фактов (recall-intensive). Memory Caching элегантно находит баланс между вычислительной эффективностью `O(L)` у RNN и растущей за `O(L^2)` ёмкостью трансформеров. Динамически расширяя эффективный объём памяти, эта техника позволяет субквадратичным архитектурам достигать трансформерного качества на задачах in-context retrieval и Needle-In-A-Haystack. Подробнее: https://t.me/gonzo_ML_podcasts/2656

Из этого канала