Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с модификацией кода нескольких питон классов, алгоритм нашёл нетривиальные подходы, которые люди не использовали. Ситуация напоминает старый добрый 2012-й (а на самом деле раньше), когда сети нашли фичи для анализа изображений, которые работали лучше созданных человеком. Discovering Multiagent Learning Algorithms with Large Language Models __Zun Li, John Schultz, Daniel Hennes, Marc Lanctot__ Статья: https://arxiv.org/abs/2602.16928 Ревью: https://arxiviq.substack.com/p/discovering-multiagent-learning-algorithms Код: N/A Модель: N/A # TL;DR ЧТО сделали: Авторы применили эволюционную систему на базе LLM (AlphaEvolve) для автоматического поиска совершенно новых вариантов алгоритмов мультиагентного обучения с подкреплением (MARL). Семантически мутируя исходный код на Python, система нашла новые, неочевидные расширения для Counterfactual Regret Minimization (CFR) и Policy Space Response Oracles (PSRO). ПОЧЕМУ это важно: Прогресс в алгоритмической теории игр исторически тормозился человеческой интуицией. Исследователи полагались на ручной перебор, чтобы найти математически обоснованные эвристики для дисконтирования сожаления (regret) или смешивания мета-стратегий. Эта работа показывает, что если рассматривать проектирование алгоритмов как задачу символьного поиска, можно получить высокоэффективные, реактивные механизмы — например, дисконтирование с адаптацией к волатильности и асимметричное бустирование сожаления. Эти находки значительно обходят SOTA-бейзлайны, созданные людьми. Подробнее: https://t.me/gonzo_ML_podcasts/2550
Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с…
Из этого канала
- #4841Найс! Любителям Openclaw посвящается. Agents of Chaos Natalie Shapira, Chris…
Найс! Любителям Openclaw посвящается. Agents of Chaos Natalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex…
- #4845Субботнее. Терминатор, погоди!…
Субботнее. Терминатор, погоди! https://superflix.ai/video/0f16ca59-3e0e-4192-985a-a5a25fc1a596
- #4846Джепизация всей планеты продолжается. C-JEPA. На сабстеке завёл отдельную…
Джепизация всей планеты продолжается. C-JEPA. На сабстеке завёл отдельную секцию про World Models: https://arxiviq.substack.com/s/world-models/archive?sort=new…
- #4835"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из…
"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из Гугла ~~переоткрывают Universal Transformer~~ определяют для каких токенов…
- #4831Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к…
Забавная молекулярная метафора для понимания Chain-of-Thought. Приводит к интересным идеям, что в дистилляции важна не конкретная цепочка токенов, а структура,…