Ещё одна работа про агентов для автоматизации ИИ-исследований (ИИИ). Эта прям заземляет всё на практику, чтобы агенты делали код, который работает и работает эффективно. Интересно, что как и в другой недавней работе про Learning to Discover at Test Time, подсвечивается важность не какого-то улучшенного среднего результата, а __лучшего__ результата. И RL здесь оказывается консервативно-безопасным до уровня бесполезности. Towards Execution-Grounded Automated AI Research __Chenglei Si, Zitong Yang, Yejin Choi, Emmanuel Candès, Diyi Yang, Tatsunori Hashimoto__ Статья: https://arxiv.org/abs/2601.14525 Код: https://github.com/NoviScl/Automated-AI-Researcher Ревью: https://arxiviq.substack.com/p/towards-execution-grounded-automated # TL;DR ЧТО сделали: Авторы разработали «Automated Idea Executor» — систему, позволяющую LLM не просто генерировать гипотезы, а реализовывать их в виде патчей кода, запускать на GPU и получать реальный фидбек о производительности. Эту петлю обратной связи использовали для улучшения способностей генерации идей у фронтирных моделей (Claude 3.5 Sonnet, GPT-5) через два метода: эволюционный поиск и обучение с подкреплением (RL). ПОЧЕМУ это важно: Работа решает «проблему галлюцинаций» в автоматизированной науке, когда агенты генерируют правдоподобные, но нерабочие решения. Замкнув цикл на реальное исполнение, авторы показали, что LLM способны открывать новые алгоритмы, превосходящие сильные бейзлайны (например, побили рекорд экспертов в задаче GRPO). Ключевой инсайт: вскрылось фундаментальное расхождение в динамике обучения. Эволюционный поиск эффективно находит прорывные идеи-выбросы, тогда как RL страдает от коллапса мод, оптимизируя «безопасные» и простые изменения кода вместо научных открытий. Подробнее: https://t.me/gonzo_ML_podcasts/2231
Ещё одна работа про агентов для автоматизации ИИ-исследований (ИИИ). Эта прям…
Из этого канала
- #4663"JIT-подход к моделированию мира “Just in Time” World Modeling Supports Human…
"JIT-подход к моделированию мира “Just in Time” World Modeling Supports Human Planning and Reasoning Tony Chen, Sam Cheyette, Kelsey R Allen, Joshua B…
- #4666Поговорили с Иваром Максутовым из Постнауки за жизнь и AI.…
Поговорили с Иваром Максутовым из Постнауки за жизнь и AI. https://www.youtube.com/watch?v=VS64H5FYlqI
- #4667"DeepMind собрал AlphaGenome, вернее довёл его до публикации в Nature и API на…
"DeepMind собрал AlphaGenome, вернее довёл его до публикации в Nature и API на Гугле! Работает на размерах до 1 мегабазы с разрешением в 1 нуклеотид.
- #4656Интересный кейс создания нетривиального софта от Нвидии: VibeTensor: System…
Интересный кейс создания нетривиального софта от Нвидии: VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents Bing Xu, Terry Chen,…
- #4655Новый энкодер DeepSeek-OCR-2
Новый энкодер DeepSeek-OCR-2