Не будем тянуть с разбором: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models __Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie, Kezhao Huang, Xingkai Yu, Zhewen Hao, Yukun Li, Han Zhang, Huishuai Zhang, Dongyan Zhao, Wenfeng Liang__ Статья: https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf Код: https://github.com/deepseek-ai/Engram Ревью: https://arxiviq.substack.com/p/conditional-memory-via-scalable-lookup # TL;DR ЧТО сделали: Представили Engram — модуль «условной памяти» (conditional memory), который внедряет огромные статические таблицы эмбеддингов N-грамм прямо в слои трансформера. Авторы отделили хранение знаний от нейронных вычислений и вывели закон распределения разреженности (Sparsity Allocation): замена примерно 20% параметров MoE (Mixture-of-Experts) на такие хеш-лукапы (lookups) значительно улучшает метрики как в задачах на знания, так и в сложном ризонинге. ПОЧЕМУ это важно: Работа ставит под сомнение парадигму «all-neural». Доказано, что специализированные лукапы эффективнее механизмов внимания для статических паттернов (сущности, идиомы), что позволяет разгрузить головы внимания для реальных рассуждений. Более того, поскольку индексы поиска детерминированы, таблицы памяти можно выгрузить в RAM процессора (CPU) с ничтожной задержкой. Это открывает путь к масштабированию моделей далеко за пределы HBM видеокарт. Подробнее: https://t.me/gonzo_ML_podcasts/2032
Не будем тянуть с разбором: Conditional Memory via Scalable Lookup: A New Axis…
Из этого канала
- #4550Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target,…
Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target, Walmart и Wayfair анонсировали протокол UCP: Universal Commerce Protocol.
- #4551Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists…
Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists Using Rubric Rewards Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi,…
- #4555Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий…
Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий с множественными наградами.
- #4546DeepSeek разошёлся. Молодцы. https://github.com/deepseek-ai/Engram
DeepSeek разошёлся. Молодцы. https://github.com/deepseek-ai/Engram
- #4543Перплексия теперь не модно. Эпиплексия модно. Всё на благо ограниченных…
Перплексия теперь не модно. Эпиплексия модно. Всё на благо ограниченных наблюдателей! Epiplexity: Quantifying the Structural Value of Data for Bounded…