Новые оптимизаторы -- это вообще интересная тема, там тоже постоянно что-то появляется, и какая-то новая теория в том числе. Например, одна из недавних работ “Old Optimizer, New Norm: An Anthology” (https://arxiv.org/abs/2409.20325) обобщает несколько методов (Adam, Shampoo, Prodigy) и показывает их эквивалентность steepest descent с определённой нормой, а также намечает новое пространство (выбор нормы, выбор шага) для дизайна таких алгоритмов. Это всё идейно напоминает подход, который авторы SSM постоянно воспроизводят (https://t.me/gonzo_ML/2860, https://t.me/gonzo_ML/2718), сводя во всё более общем матаппарате разные методы (RNN, SSM, трансформеры) под один зонтик. Внимательно работу пока не изучал, но выглядит интересно. И про Newton-Schulz iteration там тоже есть. Спасибо авторам мюона, нашёл прекрасную цитату в работе Ноама Шазира 2020 года (https://arxiv.org/abs/2002.05202): __“We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence.” __ На этой оптимистической ноте и закончу.
Новые оптимизаторы -- это вообще интересная тема, там тоже постоянно что-то…
Из этого канала
- #3599Вау! https://qwenlm.github.io/blog/qwen3/
Вау! https://qwenlm.github.io/blog/qwen3/
- #3602Qwen3 models are supporting 119 languages and dialects. И наконец-то есть…
Qwen3 models are supporting 119 languages and dialects. И наконец-то есть полный список этих языков с разбивкой на семьи.
- #3603Хороший толк для прослушивания во время утренней прогулки. Сотрудники…
Хороший толк для прослушивания во время утренней прогулки. Сотрудники Антропика, работающие над вопросами model welfare и наличия сознания у моделей,…
- #3591Muon Optimizer Accelerates Grokking Amund Tveit, Bjørn Remseth, Arve Skogvold…
Muon Optimizer Accelerates Grokking Amund Tveit, Bjørn Remseth, Arve Skogvold Статья: https://arxiv.org/abs/2504.16041 Любопытная история про гроккинг, здесь…
- #3589Датасет DUMB500 — это тоже прекрасно, кстати!
Датасет DUMB500 — это тоже прекрасно, кстати!