Всё ещё кипятите? What Really Matters in Matrix-Whitening Optimizers? Авторы: __Kevin Frans, Pieter Abbeel, Sergey Levine__ Статья: https://arxiv.org/abs/2510.25000 Код: https://github.com/kvfrans/matrix-whitening Ревью: https://arxiviq.substack.com/p/what-really-matters-in-matrix-whitening Свежая интересная статья про разбор новых оптимизаторов и попытку разобраться, что же в них таки играет. Оказывается, нормализация и геометрия — это хорошо, но не единственный фактор. Исследование предлагает инсайт, который меняет устоявшиеся взгляды: прирост производительности объясняется не только точной спектральной нормализацией, которая была доминирующей теоретической мотивацией. На самом деле, самый эффективный оптимизатор, SOAP, выполнял спектральную нормализацию менее точно, чем Muon, занявший второе место. Критически важным, но часто упускаемым из виду ингредиентом оказывается адаптация к дисперсии. Версии оптимизаторов с адаптацией к дисперсии последовательно и значительно превосходят свои аналоги со знаковым спуском (signed descent) во всех протестированных семействах. Это переосмысливает принципы проектирования будущих оптимизаторов, предполагая, что прогресс лежит в модульном сочетании этих двух компонентов, а не в концентрации на идеальной ортогонализации градиента. Работа также подтверждает эффективность низкоранговой факторизации для буферов дисперсии, что снижает потребление памяти и открывает путь к масштабированию этих мощных методов на огромные модели. Подробнее: https://t.me/gonzo_ML_podcasts/1240
Всё ещё кипятите? What Really Matters in Matrix-Whitening Optimizers? Авторы:…
Из этого канала
- #4193"Сначала рассматривали предобучение в контексте бесконечного компьюта (см.…
"Сначала рассматривали предобучение в контексте бесконечного компьюта (см. Pre-training under infinite compute, https://t.me/gonzoML/4038), теперь инференс.
- #4195"Классно, когда на Arxiv публикуют sci-fi. Была летом практическая работа про…
"Классно, когда на Arxiv публикуют sci-fi. Была летом практическая работа про Context Engineering (""A Survey of Context Engineering for Large Language…
- #4199"В целом постить анонсы появления разных новых моделей перестало быть особенно…
"В целом постить анонсы появления разных новых моделей перестало быть особенно интересно, про это и так все напишут (тут ещё и Gemini 3.0 Pro и GPT-5.1…
- #4190Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI)…
Прекрасная картинка от a16z (на самом деле от Air Street Capital и State of AI) про предпочтения разработчиками открытых моделей
- #4188Обзор трансформеров с памятью. Memory-Augmented Transformers: A Systematic…
Обзор трансформеров с памятью. Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Enhanced Model Architectures Authors: Parsa…