Новая работа про attention sinks и огромные активации. Этой теме также была посвящена работа команды Qwen с NeurIPS 2025 Best Paper Award. Там проблему решали, а здесь ещё и объясняют механику возникновения. Редкий пример работы, когда абляции особенно интересны! The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks __Shangwen Sun, Alfredo Canziani, Yann LeCun, Jiachen Zhu__ Статья: https://arxiv.org/abs/2603.05498 Ревью: https://arxiviq.substack.com/p/the-spike-the-sparse-and-the-sink Код: N/A Модель: N/A # TL;DR ЧТО сделали: Исследователи из Нью-Йоркского университета механистически препарировали и разделили два повсеместных феномена в современных LLM: массивные активации (экстремальные выбросы магнитуды в специфических скрытых каналах) и attention sinks (непропорционально большая масса внимания, направленная на начальные токены или разделители). Через строгие абляции архитектур в стиле LLaMA они доказывают, что массивные активации работают как неявные глобальные параметры, генерируемые ранними feed-forward блоками. В то же время слои нормализации независимо сплющивают эти выбросы в разреженные, инвариантные субстраты, которые головы внимания радостно используют для сброса лишней массы вероятности. ПОЧЕМУ это важно: Эта работа ставит точку в спорах, доказывая, что постоянное пересечение массивных активаций и attention sinks — это просто случайный артефакт архитектуры трансформера с pre-norm, а не какая-то функциональная необходимость. Изменив логику нормализации или добавив динамический гейтинг, можно полностью искоренить массивные активации без малейшего ущерба для качества моделирования языка. На практике это открывает прямой архитектурный путь к инференсу в сверхнизком разрешении и радикальному сокращению KV-кэша, избавляя инженеров от необходимости городить сложные костыли. Разбираться с активациями и чинить сливы тут: https://t.me/gonzo_ML_podcasts/2770