Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve отдельную reward model, обученную на ревью ICLR. AlphaResearch: Accelerating New Algorithm Discovery with Language Models Authors: Zhaojian Yu, Kaiyue Feng, Yilun Zhao, Shilin He, Xiao-Ping Zhang, Arman Cohan Paper: https://arxiv.org/abs/2511.08522 Code: https://github.com/answers111/alpha-research Model: https://huggingface.co/alpha-research/AlphaResearch-RM-Qwen-7B Review: https://arxiviq.substack.com/p/alpharesearch-accelerating-new-algorithm # TL;DR Что сделано? Авторы представляют AlphaResearch, автономного агента, который открывает новые алгоритмы для решения открытых задач. Ключевая инновация — «двойная исследовательская среда», которая расширяет подход верификации на основе выполнения кода, используемый в системах вроде AlphaEvolve. Эта среда добавляет симулированный механизм рецензирования (peer review), работающий на базе модели вознаграждения (AlphaResearch-RM-7B), обученной на более чем 24 000 реальных рецензий с конференции ICLR. Эта модель оценивает новизну и качество предлагаемой идеи *до* её реализации, что позволяет отсеивать бесперспективные направления на раннем этапе. Авторы также представили AlphaResearchComp — новый открытый бенчмарк из 8 сложных алгоритмических задач для обеспечения прозрачной и воспроизводимой оценки. Почему это важно? Такой двойной подход напрямую решает проблему «разрыва между идеей и её выполнением» — ключевую сложность, когда сгенерированные ИИ идеи либо инновационны, но невыполнимы, либо выполнимы, но не представляют научного интереса. Сочетая оценку качества идеи с производительностью её реализации, AlphaResearch ускоряет поиск значимых открытий. Это подтвердилось, когда агент открыл новый, лучший из известных алгоритм для задачи «упаковки кругов», превзойдя решения как экспертов-людей, так и сильных бейзлайнов вроде AlphaEvolve. Работа представляет собой важный шаг вперёд, смещая парадигму от простого поиска работающего кода к открытию научно ценных алгоритмов. Подробнее: https://t.me/gonzo_ML_podcasts/1377
Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve…
Из этого канала
- #4216Шмидхубер не унимается.…
Шмидхубер не унимается. https://people.idsia.ch/~juergen/who-invented-transformer-neural-networks.html
- #4217Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language…
Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model Biao Zhang, Yong Cheng, Siamak Shakeri, Xinyi Wang, Min Ma, Orhan Firat…
- #4218RedLLM, энкодер-декодер, применяет RoPE повсеместно: в модулях self-attention…
RedLLM, энкодер-декодер, применяет RoPE повсеместно: в модулях self-attention энкодера, self-attention декодера и cross-attention.
- #4212Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна…
Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна от Цукерберга, Лекун с соавтором выпустил работу про обновлённую JEPA под…
- #4210Работа про Continuous Autoregressive Language Models. Генерим непрерывный…
Работа про Continuous Autoregressive Language Models. Генерим непрерывный вектор, из которого через VAE восстанавливаем сразу K токенов (например, 4).