Новая работа про attention sinks и огромные активации. Этой теме также была посвящена работа команды Qwen с NeurIPS 2025 Best Paper Award. Там проблему решали, а здесь ещё и объясняют механику возникновения. Редкий пример работы, когда абляции особенно интересны! The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks __Shangwen Sun, Alfredo Canziani, Yann LeCun, Jiachen Zhu__ Статья: https://arxiv.org/abs/2603.05498 Ревью: https://arxiviq.substack.com/p/the-spike-the-sparse-and-the-sink Код: N/A Модель: N/A # TL;DR ЧТО сделали: Исследователи из Нью-Йоркского университета механистически препарировали и разделили два повсеместных феномена в современных LLM: массивные активации (экстремальные выбросы магнитуды в специфических скрытых каналах) и attention sinks (непропорционально большая масса внимания, направленная на начальные токены или разделители). Через строгие абляции архитектур в стиле LLaMA они доказывают, что массивные активации работают как неявные глобальные параметры, генерируемые ранними feed-forward блоками. В то же время слои нормализации независимо сплющивают эти выбросы в разреженные, инвариантные субстраты, которые головы внимания радостно используют для сброса лишней массы вероятности. ПОЧЕМУ это важно: Эта работа ставит точку в спорах, доказывая, что постоянное пересечение массивных активаций и attention sinks — это просто случайный артефакт архитектуры трансформера с pre-norm, а не какая-то функциональная необходимость. Изменив логику нормализации или добавив динамический гейтинг, можно полностью искоренить массивные активации без малейшего ущерба для качества моделирования языка. На практике это открывает прямой архитектурный путь к инференсу в сверхнизком разрешении и радикальному сокращению KV-кэша, избавляя инженеров от необходимости городить сложные костыли. Разбираться с активациями и чинить сливы тут: https://t.me/gonzo_ML_podcasts/2770
Новая работа про attention sinks и огромные активации. Этой теме также была…
Из этого канала
- #4958"Прикольная работа про модель мира/нейро-дебаггер питона. Модели не обязательно…
"Прикольная работа про модель мира/нейро-дебаггер питона. Модели не обязательно запускать реальный интерпретатор, она может сделать нужные выводы ""в голове"".
- #4964"Респект FAIR, выкатили работу про очень мультиязычный перевод! Omnilingual MT:…
"Респект FAIR, выкатили работу про очень мультиязычный перевод! Omnilingual MT: Machine Translation for 1,600 Languages The Omnilingual MT Team, Belen…
- #4968Новый GTC удивителен не железными анонсами про Vera Rubin и Groq, а NemoClaw…
Новый GTC удивителен не железными анонсами про Vera Rubin и Groq, а NemoClaw Слушать можно сразу саммари:…
- #49404️⃣ LLM находят типы рёбер, недоступные бейзлайнам. Rule-based стратегии…
4️⃣ LLM находят типы рёбер, недоступные бейзлайнам. Rule-based стратегии находят максимум 2 из 4 типов рёбер.
- #4939"В коде есть штука, которой нет в пространственных средах (ну или она там не…
"В коде есть штука, которой нет в пространственных средах (ну или она там не так важна, хотя в принципе тоже есть) — архитектурный замысел (“туда не ходи, сюда…