Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve… — @gonzo_ML

Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve отдельную reward model, обученную на ревью ICLR. AlphaResearch: Accelerating New Algorithm Discovery with Language Models Authors: Zhaojian Yu, Kaiyue Feng, Yilun Zhao, Shilin He, Xiao-Ping Zhang, Arman Cohan Paper: https://arxiv.org/abs/2511.08522 Code: https://github.com/answers111/alpha-research Model: https://huggingface.co/alpha-research/AlphaResearch-RM-Qwen-7B Review: https://arxiviq.substack.com/p/alpharesearch-accelerating-new-algorithm # TL;DR Что сделано? Авторы представляют AlphaResearch, автономного агента, который открывает новые алгоритмы для решения открытых задач. Ключевая инновация — «двойная исследовательская среда», которая расширяет подход верификации на основе выполнения кода, используемый в системах вроде AlphaEvolve. Эта среда добавляет симулированный механизм рецензирования (peer review), работающий на базе модели вознаграждения (AlphaResearch-RM-7B), обученной на более чем 24 000 реальных рецензий с конференции ICLR. Эта модель оценивает новизну и качество предлагаемой идеи *до* её реализации, что позволяет отсеивать бесперспективные направления на раннем этапе. Авторы также представили AlphaResearchComp — новый открытый бенчмарк из 8 сложных алгоритмических задач для обеспечения прозрачной и воспроизводимой оценки. Почему это важно? Такой двойной подход напрямую решает проблему «разрыва между идеей и её выполнением» — ключевую сложность, когда сгенерированные ИИ идеи либо инновационны, но невыполнимы, либо выполнимы, но не представляют научного интереса. Сочетая оценку качества идеи с производительностью её реализации, AlphaResearch ускоряет поиск значимых открытий. Это подтвердилось, когда агент открыл новый, лучший из известных алгоритм для задачи «упаковки кругов», превзойдя решения как экспертов-людей, так и сильных бейзлайнов вроде AlphaEvolve. Работа представляет собой важный шаг вперёд, смещая парадигму от простого поиска работающего кода к открытию научно ценных алгоритмов. Подробнее: https://t.me/gonzo_ML_podcasts/1377

Из этого канала