В последнее время было возрождение интереса к эволюционным стратегиям (1, 2). Они работают, но с засадой. Оказывается, они приводят к катастрофическому забыванию других задач, и на уровне объяснения это даже логично — GRPO обновляет веса точечно в разреженных подсетях, а ES бахает по всем сразу. Evolutionary Strategies lead to Catastrophic Forgetting in LLMs __Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee, Gopala Anumanchipalli__ Статья: https://arxiv.org/abs/2601.20861 Ревью: https://arxiviq.substack.com/p/evolutionary-strategies-lead-to-catastrophic Код: https://github.com/akshat57/es-catastrophic Модель: https://huggingface.co/collections/immanuelabdi/es-at-scale-lead-to-catastrophic-forgetting # TL;DR ЧТО сделали: Авторы провели тщательный анализ Эволюционных Стратегий (Evolutionary Strategies, ES) для файнтюнинга LLM, сравнив их с Group Relative Policy Optimization (GRPO). Они подтвердили, что ES может сравниться с градиентными методами на конкретных задачах на рассуждение, но показали, что ценой этого является тяжелое катастрофическое забывание предыдущих знаний. ПОЧЕМУ это важно: Индустрия стремится к обучению на устройствах (on-device learning), где эффективные по памяти методы без градиентов (как ES) выглядят спасением. Однако исследование вскрывает критическую проблему: ES достигает результата за счет плотных обновлений параметров с огромной нормой, что глобально ломает веса модели. Это делает метод непригодным для непрерывного обучения (continual learning), несмотря на его аппаратную эффективность. Подробнее: https://t.me/gonzo_ML_podcasts/2311