Kimi Linear: An Expressive, Efficient Attention Architecture https://arxiv.org/abs/2510.26692 Новинка в линейке Kimi, SSM-Трансформер гибрид с линейным вниманием, который наконец бьёт традиционные бейзлайны с полным вниманием. Наверное, достойно самостоятельного разбора (как и Mamba 3 в очереди), но пока нет времени, так что пусть хотя бы так. Развивает идеи из Gated Delta Networks (тут в слайдах было), отдельно спасибо авторам за таблицы со сравнением разных механизмов внимания на уровне рекуррентных и параллельных формул, objectives и update rule. Обучена оптимизатором MuonClip от Kimi K2 (https://arxiv.org/abs/2507.20534). Кто-то всё-таки успешно использует Muon в продакшне. Что интересно, MuonClip был сделан для борьбы с нестабильностью во время обучения, видимо частая проблема. Я пока в своих экспериментах тоже не могу добиться должной стабильности с обычным Muon'ом. Поделитесь опытом, кто сумел. Подробнее: https://t.me/gonzo_ML_podcasts/1196
Kimi Linear: An Expressive, Efficient Attention Architecture…
Из этого канала
- #4186Продолжаем серию обзорных работ по большой области. После обзора диффузионок…
Продолжаем серию обзорных работ по большой области. После обзора диффузионок приехал обзор по KAN. Этот поскромнее, всего 63 страницы.
- #4188Обзор трансформеров с памятью. Memory-Augmented Transformers: A Systematic…
Обзор трансформеров с памятью. Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures Authors: Parsa…
- #4190Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI)…
Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI) про предпочтения разработчиками открытых моделей
- #4180The Principles of Diffusion Models: From Origins to Advances Chieh-Hsin Lai,…
The Principles of Diffusion Models: From Origins to Advances Chieh-Hsin Lai, Yang Song, Dongjun Kim, Yuki Mitsufuji, Stefano Ermon Статья:…
- #4179Когда ты думал, что оно грокнуло, а оно, зараза, переобучилось 😹
Когда ты думал, что оно грокнуло, а оно, зараза, переобучилось 😹