Ещё про мюон. Разбирают, почему именно мюон лучше адама идёт по ландшафту функции потерь. Заодно экспериментирую с провязкой ревью с другими тематическими статьями. Why Muon Outperforms Adam: A Curvature Perspective __Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang__ Paper: https://arxiv.org/abs/2606.04662 Review: https://arxiviq.substack.com/p/why-muon-outperforms-adam-a-curvature Code: N/A Model: N/A # TL;DR Что сделали: Объяснили, почему новый оптимизатор Muon обучает большие языковые модели (LLM) в два раза быстрее классического Adam. Авторы показали, что секрет кроется в спектральной нормализации — математической операции, которая масштабирует матрицу обновления параметров так, чтобы все ключевые направления имели равный вес. Это не позволяет какому-то одному направлению полностью доминировать на сложном ландшафте функции потерь. Почему это важно: Вместо того чтобы относиться к оптимизаторам как к «чёрным ящикам», эта работа даёт строгое геометрическое объяснение происходящему. Понимание того, как структура данных и архитектура модели влияют на скорость локальной оптимизации, закладывает математическую основу для создания следующего поколения более быстрых алгоритмов обучения. Изучать кривизну здесь: https://t.me/gonzo_ML_podcasts/3983