Ещё про мюон. Разбирают, почему именно мюон лучше адама идёт по ландшафту функции потерь. Заодно экспериментирую с провязкой ревью с другими тематическими статьями. Why Muon Outperforms Adam: A Curvature Perspective __Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang__ Paper: https://arxiv.org/abs/2606.04662 Review: https://arxiviq.substack.com/p/why-muon-outperforms-adam-a-curvature Code: N/A Model: N/A # TL;DR Что сделали: Объяснили, почему новый оптимизатор Muon обучает большие языковые модели (LLM) в два раза быстрее классического Adam. Авторы показали, что секрет кроется в спектральной нормализации — математической операции, которая масштабирует матрицу обновления параметров так, чтобы все ключевые направления имели равный вес. Это не позволяет какому-то одному направлению полностью доминировать на сложном ландшафте функции потерь. Почему это важно: Вместо того чтобы относиться к оптимизаторам как к «чёрным ящикам», эта работа даёт строгое геометрическое объяснение происходящему. Понимание того, как структура данных и архитектура модели влияют на скорость локальной оптимизации, закладывает математическую основу для создания следующего поколения более быстрых алгоритмов обучения. Изучать кривизну здесь: https://t.me/gonzo_ML_podcasts/3983
Ещё про мюон. Разбирают, почему именно мюон лучше адама идёт по ландшафту…
Из этого канала
- #55271 - 15 - 20 - 28 - 70 - ... пользователей на один гпу. Прикольный доклад от…
1 - 15 - 20 - 28 - 70 - ... пользователей на один гпу. Прикольный доклад от ElevenLabs.
- #5538https://www.anthropic.com/news/fable-mythos-access А помните, PGP тоже когда-то…
https://www.anthropic.com/news/fable-mythos-access А помните, PGP тоже когда-то была забанена экспортным контролем.
- #5539"С массовым пришествием ~~современных калькуляторов~~ LLM и агентов всё больше…
"С массовым пришествием ~~современных калькуляторов~~ LLM и агентов всё больше стимулов передать работу по пониманию сложных статей этим моделям и агентам,…
- #5517Мюоныча разбирают. Показали, что для разных слоёв надо использовать разное…
Мюоныча разбирают. Показали, что для разных слоёв надо использовать разное число итераций Ньютона-Шульца.
- #5511Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там…
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит.