Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с модификацией кода нескольких питон классов, алгоритм нашёл нетривиальные подходы, которые люди не использовали. Ситуация напоминает старый добрый 2012-й (а на самом деле раньше), когда сети нашли фичи для анализа изображений, которые работали лучше созданных человеком. Discovering Multiagent Learning Algorithms with Large Language Models __Zun Li, John Schultz, Daniel Hennes, Marc Lanctot__ Статья: https://arxiv.org/abs/2602.16928 Ревью: https://arxiviq.substack.com/p/discovering-multiagent-learning-algorithms Код: N/A Модель: N/A # TL;DR ЧТО сделали: Авторы применили эволюционную систему на базе LLM (AlphaEvolve) для автоматического поиска совершенно новых вариантов алгоритмов мультиагентного обучения с подкреплением (MARL). Семантически мутируя исходный код на Python, система нашла новые, неочевидные расширения для Counterfactual Regret Minimization (CFR) и Policy Space Response Oracles (PSRO). ПОЧЕМУ это важно: Прогресс в алгоритмической теории игр исторически тормозился человеческой интуицией. Исследователи полагались на ручной перебор, чтобы найти математически обоснованные эвристики для дисконтирования сожаления (regret) или смешивания мета-стратегий. Эта работа показывает, что если рассматривать проектирование алгоритмов как задачу символьного поиска, можно получить высокоэффективные, реактивные механизмы — например, дисконтирование с адаптацией к волатильности и асимметричное бустирование сожаления. Эти находки значительно обходят SOTA-бейзлайны, созданные людьми. Подробнее: https://t.me/gonzo_ML_podcasts/2550