Не будем тянуть с разбором: Conditional Memory via Scalable Lookup: A New Axis… — @gonzo_ML

Не будем тянуть с разбором: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models __Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie, Kezhao Huang, Xingkai Yu, Zhewen Hao, Yukun Li, Han Zhang, Huishuai Zhang, Dongyan Zhao, Wenfeng Liang__ Статья: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf Код: https://github.com/deepseek-ai/Engram Ревью: https://arxiviq.substack.com/p/conditional-memory-via-scalable-lookup # TL;DR ЧТО сделали: Представили Engram — модуль «условной памяти» (conditional memory), который внедряет огромные статические таблицы эмбеддингов N-грамм прямо в слои трансформера. Авторы отделили хранение знаний от нейронных вычислений и вывели закон распределения разреженности (Sparsity Allocation): замена примерно 20% параметров MoE (Mixture-of-Experts) на такие хеш-лукапы (lookups) значительно улучшает метрики как в задачах на знания, так и в сложном ризонинге. ПОЧЕМУ это важно: Работа ставит под сомнение парадигму «all-neural». Доказано, что специализированные лукапы эффективнее механизмов внимания для статических паттернов (сущности, идиомы), что позволяет разгрузить головы внимания для реальных рассуждений. Более того, поскольку индексы поиска детерминированы, таблицы памяти можно выгрузить в RAM процессора (CPU) с ничтожной задержкой. Это открывает путь к масштабированию моделей далеко за пределы HBM видеокарт. Подробнее: https://t.me/gonzo_ML_podcasts/2032

Из этого канала