Эволюционные стратегии на масштабе. Недавно уже был один подход к снаряду… — @gonzo_ML

Эволюционные стратегии на масштабе. Недавно уже был один подход к снаряду (https://t.me/gonzo_ML/4092), в новом добавили низкоранговую факторизацию. Evolution Strategies at the Hyperscale __Bidipta Sarkar, Mattie Fellows, Juan Agustin Duque, Alistair Letcher, Antonio León Villares, Anya Sims, Dylan Cope, Jarek Liesen, Lukas Seier, Theo Wolf, Uljad Berdica, Alexander David Goldie, Aaron Courville, Karin Sevegnani, Shimon Whiteson, Jakob Nicolaus Foerster__ Статья: https://arxiv.org/abs/2511.16652 Код: https://eshyperscale.github.io/ Ревью: https://arxiviq.substack.com/p/evolution-strategies-at-the-hyperscale # TL;DR ЧТО сделали? Представили EGGROLL (Evolution Guided General Optimization via Low-rank Learning) — метод масштабирования эволюционных стратегий (ES) на нейросети с миллиардами параметров. Заменив полноранговые матрицы гауссова шума на их низкоранговые факторизации, авторы сократили потребление памяти с `O(mn)` до `O(r(m+n))` и добились почти линейного масштабирования на кластерах. Это позволило обучать недифференцируемые системы, например, полностью целочисленные (integer-only) языковые модели. ПОЧЕМУ это важно? Стандартный backpropagation «пожирает» память и требует дифференцируемой архитектуры. Эволюционные стратегии исторически предлагали альтернативу для специфичного железа или задач с разреженной наградой, но упирались в потолок масштабирования: хранить и считать плотные матрицы шума для огромных сетей было слишком накладно. EGGROLL ломает этот барьер, доказывая, что низкоранговые возмущения могут отлично аппроксимировать истинные натуральные градиенты, сходясь при этом с высокой скоростью `O(1/r)`. Подробнее: https://t.me/gonzo_ML_podcasts/1418

Из этого канала