Обзор трансформеров с памятью. Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures Authors: __Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi__ Paper: https://arxiv.org/abs/2508.10824 В этой статье представлен систематический обзор, который закладывает комплексную междисциплинарную основу для дополненных памятью трансформеров (Memory-Augmented Transformers, MATs). Он связывает фундаментальные принципы нейронаук — такие как динамическая память с разными временными масштабами, избирательное внимание и консолидация — с последними инженерными достижениями. Авторы вводят новую многомерную таксономию, которая организует область по трём основным осям: функциональные цели (например, расширение контекста, рассуждения), типы памяти (закодированная в параметрах, на основе состояний, явная и гибридная) и техники интеграции (например, слияние на основе внимания, управляющие гейт-механизмы). В обзоре тщательно анализируется эволюция основных операций с памятью, показывая чёткую траекторию от статических механизмов кэширования к динамическим, самоуправляемым системам. Подробнее: https://t.me/gonzo_ML_podcasts/1233
Обзор трансформеров с памятью. Memory-Augmented Transformers: A Systematic…
Из этого канала
- #4190Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI)…
Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI) про предпочтения разработчиками открытых моделей
- #4191Всё ещё кипятите? What Really Matters in Matrix-Whitening Optimizers? Авторы:…
Всё ещё кипятите? What Really Matters in Matrix-Whitening Optimizers? Авторы: Kevin Frans, Pieter Abbeel, Sergey Levine Статья:…
- #4193"Сначала рассматривали предобучение в контексте бесконечного компьюта (см.…
"Сначала рассматривали предобучение в контексте бесконечного компьюта (см. Pre-training under infinite compute, https://t.me/gonzoML/4038), теперь инференс.
- #4186Продолжаем серию обзорных работ по большой области. После обзора диффузионок…
Продолжаем серию обзорных работ по большой области. После обзора диффузионок приехал обзор по KAN. Этот поскромнее, всего 63 страницы.
- #4182Kimi Linear: An Expressive, Efficient Attention Architecture…
Kimi Linear: An Expressive, Efficient Attention Architecture https://arxiv.org/abs/2510.26692 Новинка в линейке Kimi, SSM-Трансформер гибрид с линейным…