Мюоныча разбирают. Показали, что для разных слоёв надо использовать разное число итераций Ньютона-Шульца. (с latex формулами мне пока не удалось добиться рендеринга в телеге) Spectral Scaling Laws of Muon __Gagik Magakyan, Pablo Parrilo, Asuman Ozdaglar__ Paper: https://arxiv.org/abs/2606.04058 Code: https://github.com/KellerJordan/modded-nanogpt Review: https://arxiviq.substack.com/p/spectral-scaling-laws-of-muon Model: N/A # TL;DR ЧТО сделали: Авторы представили первое систематическое исследование спектральной динамики буферов моментума в оптимизаторе Muon (https://kellerjordan.github.io/posts/muon/) при предобучении больших языковых моделей. Отслеживая квантили сингулярных чисел на разных глубинах в моделях размером от 77M до 2.8B параметров, они обнаружили, что сингулярные числа моментума подчиняются удивительно чётким степенным законам в двойном логарифмическом масштабе относительно размера модели, причём показатели степени (экспоненты) сильно зависят от конкретного слоя. ПОЧЕМУ это важно: Современные SOTA-архитектуры всё чаще внедряют оптимизатор Muon, который позволяет удвоить вычислительную эффективность по сравнению с классическим AdamW (https://arxiv.org/abs/1711.05101). Однако стандартно аппроксимация Ньютона-Шульца для ортонормирования применяется ко всем слоям одинаково. Эта работа показывает, что однородная конфигурация крайне неоптимальна: в то время как начальные и средние слои масштабируются медленно и могут спокойно использовать дешёвые 5-шаговые итерации на огромных масштабах, финальные слои масштабируются очень агрессивно и неизбежно столкнутся со сбоем ортонормирования, если не выделить им больше шагов. Для практиков: Исследование предлагает теоретически обоснованный послойный рецепт оптимизации предобучения. Вместо дорогого ортонормирования по всей сети можно оставить дешёвую 5-шаговую схему на большинстве слоёв и точечно применить 10-шаговую итерацию только на самых глубоких слоях. Это защитит модель от падения качества на SOTA-масштабах и сбережёт пропускную способность. Мюонить тут: https://t.me/gonzo_ML_podcasts/3970
Мюоныча разбирают. Показали, что для разных слоёв надо использовать разное…
Из этого канала
- #5511Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там…
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит.
- #5507Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне…
Выкидываем лишние матрицы из трансформеров. Вот, слили K и V. Вообще мне кажется, что-то такое уже было...
- #5502Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то…
Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое.