Это мне кажется гениальная работа. Задним умом механизм настолько простой и логичный, что непонятно, почему его не сделали раньше. Это как переход от обычных encoder-decoder к encoder-decoder с вниманием в RNN. Супер логично ведь, что можно не тупо суммировать все резидуалы, а смотреть на них тем же механизмом внимания, что и по длине последовательности. Заодно устраняет проблему с накоплением больших активаций в residual канале, недавние работы (см. https://t.me/gonzo_ML/4949) эту проблему решали с другой стороны. Attention Residuals __Guangyu Chen, Yu Zhang, Jianlin Su, Weixin Xu, Siyuan Pan, Yaoyu Wang, Yucheng Wang, Guanduo Chen, Bohong Yin, Yutian Chen, Junjie Yan, Ming Wei, Y. Zhang, Fanqing Meng, Chao Hong, Xiaotong Xie, Shaowei Liu, Enzhe Lu, Yunpeng Tai, Yanru Chen, Xin Men, Haiqing Guo, Y. Charles, Haoyu Lu, Lin Sui, Jinguo Zhu, Zaida Zhou, Weiran He, Weixiao Huang, Xinran Xu, Yuzhi Wang, Guokun Lai, Yulun Du, Yuxin Wu, Zhilin Yang, Xinyu Zhou__ Статья: https://arxiv.org/abs/2603.15031 Репа: https://github.com/MoonshotAI/Attention-Residuals Ревью: https://arxiviq.substack.com/p/attention-residuals # TL;DR ЧТО сделали: Авторы из от Kimi Team заменяют привычное аддитивное `residual`-соединение на механизм Attention Residuals — выучиваемое поканальное (depth-wise) внимание с софтмаксом для агрегации репрезентаций из всех предыдущих слоёв. Чтобы масштабировать это для больших моделей, они предлагают поблочный вариант с кастомным кешированием для пайплайн-параллелизма и двухфазной оптимизацией инференса. ПОЧЕМУ это важно: Стандартные `residual`-слои равномерно накапливают выходы, что приводит к неограниченному росту скрытых состояний и размытию информации из ранних слоёв. Переход к `content-aware` механизму маршрутизации (retrieval) по глубине сети позволяет жёстко ограничить магнитуды репрезентаций, выровнять поток градиентов и значительно повысить качество на задачах на рассуждение при том же объёме вычислений (выигрыш в вычислительной эффективности — 1.25x). Обратить внимание на residuals тут: https://t.me/gonzo_ML_podcasts/2806
Это мне кажется гениальная работа. Задним умом механизм настолько простой и…
Из этого канала
- #4989"Добыча ценного реварда из текущего взаимодействия агента со средой.…
"Добыча ценного реварда из текущего взаимодействия агента со средой. OpenClaw-RL: Train Any Agent Simply by Talking Yinjie Wang, Xuyang Chen, Xiaolong Jin,…
- #4994Кто хочет написать новую ОС? AgentOS: From Application Silos to a Natural…
Кто хочет написать новую ОС? AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem Rui Liu, Tao Zhe, Dongjie Wang, Zijun Yao, Kunpeng…
- #4998Пост про RL для ризонинг моделей https://aweers.de/blog/2026/rl-for-llms/
Пост про RL для ризонинг моделей https://aweers.de/blog/2026/rl-for-llms/
- #4969Но и других интересных картинок вам до кучи. Про движение к опенсорсу и…
Но и других интересных картинок вам до кучи. Про движение к опенсорсу и коалицию по продвижению открытых моделей тоже интересно.
- #4968Новый GTC удивителен не железными анонсами про Vera Rubin и Groq, а NemoClaw…
Новый GTC удивителен не железными анонсами про Vera Rubin и Groq, а NemoClaw Слушать можно сразу саммари:…