Ещё одна работа про агентов для автоматизации ИИ-исследований (ИИИ). Эта прям заземляет всё на практику, чтобы агенты делали код, который работает и работает эффективно. Интересно, что как и в другой недавней работе про Learning to Discover at Test Time, подсвечивается важность не какого-то улучшенного среднего результата, а __лучшего__ результата. И RL здесь оказывается консервативно-безопасным до уровня бесполезности. Towards Execution-Grounded Automated AI Research __Chenglei Si, Zitong Yang, Yejin Choi, Emmanuel Candès, Diyi Yang, Tatsunori Hashimoto__ Статья: https://arxiv.org/abs/2601.14525 Код: https://github.com/NoviScl/Automated-AI-Researcher Ревью: https://arxiviq.substack.com/p/towards-execution-grounded-automated # TL;DR ЧТО сделали: Авторы разработали «Automated Idea Executor» — систему, позволяющую LLM не просто генерировать гипотезы, а реализовывать их в виде патчей кода, запускать на GPU и получать реальный фидбек о производительности. Эту петлю обратной связи использовали для улучшения способностей генерации идей у фронтирных моделей (Claude 3.5 Sonnet, GPT-5) через два метода: эволюционный поиск и обучение с подкреплением (RL). ПОЧЕМУ это важно: Работа решает «проблему галлюцинаций» в автоматизированной науке, когда агенты генерируют правдоподобные, но нерабочие решения. Замкнув цикл на реальное исполнение, авторы показали, что LLM способны открывать новые алгоритмы, превосходящие сильные бейзлайны (например, побили рекорд экспертов в задаче GRPO). Ключевой инсайт: вскрылось фундаментальное расхождение в динамике обучения. Эволюционный поиск эффективно находит прорывные идеи-выбросы, тогда как RL страдает от коллапса мод, оптимизируя «безопасные» и простые изменения кода вместо научных открытий. Подробнее: https://t.me/gonzo_ML_podcasts/2231