"Следующая (в алфавитном порядке) работа с NeurIPS 2025 Best Paper Award. Теперь про архитектуры. Мультипликативные взаимодействия рулят, гейтированные функции активации тоже. Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free __Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin (Qwen Team)__ Статья: https://arxiv.org/abs/2505.06708, https://openreview.net/forum?id=1b7whO4SfY Код: https://github.com/qiuzh20/gated_attention Модель: https://huggingface.co/collections/Qwen/qwen3-next Ревью: https://arxiviq.substack.com/p/neurips-2025-gated-attention-for # TL;DR Что сделали: Авторы представляют Gated Attention — механизм, добавляющий обучаемый зависимый от входа сигмоидный гейт сразу после выхода Scaled Dot-Product Attention (SDPA). Модулируя выход Y гейтом σ(XW_θ), метод вносит поэлементную разреженность и нелинейность перед финальной проекцией. Зачем это нужно: Это простое архитектурное изменение даёт улучшенную стабильность при обучении больших моделей (убирает выбросы лосса) и стабильно улучшает перплексию на 15B MoE и 1.7B dense моделях. Главное — это механистически устраняет феномен ""Attention Sink"" и ""Massive Activations"" без всяких эвристических костылей типа ""sink tokens"", значительно улучшая экстраполяцию на длинный контекст. Подробнее: https://t.me/gonzo_ML_podcasts/1481"