Любопытная работа про память RNN и подобных линейных моделей. Memory Caching: RNNs with Growing Memory __Ali Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni__ Статья: https://arxiv.org/abs/2602.24281 Ревью: https://arxiviq.substack.com/p/memory-caching-rnns-with-growing # TL;DR ЧТО сделали: Авторы предлагают фреймворк Memory Caching (MC). Он разбивает входные последовательности на дискретные сегменты и кэширует сжатые состояния памяти (чекпоинты) рекуррентных нейросетей в конце каждого из них. Благодаря механизмам роутинга и гейтирования, текущие токены могут избирательно обращать внимание (attend) как на активную онлайн-память, так и на релевантное подмножество исторических закэшированных состояний. __Довольно сильно похоже на Hierarchical Sparse Attention (____https://t.me/gonzo_ML_podcasts/1574____), но они на неё даже не ссылаются.__ __Может быть в комбинации с Titans (____https://t.me/gonzo_ML_podcasts/1300__)__.__ ПОЧЕМУ это важно: Рекуррентные нейросети (RNN) теоретически ограничены фиксированным объёмом памяти. Это заставляет их неизбежно перезаписывать прошлую информацию, что сильно бьёт по качеству на задачах, требующих точного извлечения фактов (recall-intensive). Memory Caching элегантно находит баланс между вычислительной эффективностью `O(L)` у RNN и растущей за `O(L^2)` ёмкостью трансформеров. Динамически расширяя эффективный объём памяти, эта техника позволяет субквадратичным архитектурам достигать трансформерного качества на задачах in-context retrieval и Needle-In-A-Haystack. Подробнее: https://t.me/gonzo_ML_podcasts/2656
Любопытная работа про память RNN и подобных линейных моделей. Memory Caching:…
Из этого канала
- #4889"Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про…
"Прикольная работа с ICLR 2026 Post-AGI Science and Society Workshop про ""чужую"" науку. Как генерить научные гипотезы, чуждые людям.
- #4893~~AGI~~. SAI! AI Must Embrace Specialization via Superhuman Adaptable…
~~AGI~~. SAI! AI Must Embrace Specialization via Superhuman Adaptable Intelligence Judah Goldfeder, Philippe Wyder, Yann LeCun, Ravid Shwartz-Ziv Paper:…
- #4900Говорят, загруженное (в смысле uploaded) существо:…
Говорят, загруженное (в смысле uploaded) существо: https://x.com/michaelandregg/status/2030764512488677736 Взяли коннектом дрозофилы, собрали нейронную модель…
- #4881Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating…
Польза файликов AGENTS.md переоценена. Особенно если они не ручные. Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents? Thibaud…
- #4877Базу подвели под появление разных красивых структур в репрезентациях, выученных…
Базу подвели под появление разных красивых структур в репрезентациях, выученных на текстах.