Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists… — @gonzo_ML

Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists Using Rubric Rewards __Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse__ Статья: https://arxiv.org/abs/2512.23707 Ревью: https://arxiviq.substack.com/p/training-ai-co-scientists-using-rubric # TL;DR ЧТО сделали: Предложили масштабируемый фреймворк для обучения LLM генерации строгих планов научных исследований. Вместо дорогого фидбека от людей или несуществующих симуляторов «мокрых» лабораторий, авторы используют существующие научные статьи. Из них извлекаются «Исследовательские цели» и соответствующие «Рубрики оценки» (критерии). Затем политика обучается через Reinforcement Learning (конкретно GRPO), где награду выдаёт модель, оценивающая свои же выходы по этим извлечённым рубрикам. ПОЧЕМУ это важно: Работа атакует «проблему отсутствия симулятора» в AI for Science. Если для задач типа сворачивания белков (AlphaFold) есть физические ограничения, то для открытого научного планирования вычислимой целевой функции не существует. Формализуя интуицию peer review (проверить план легче, чем придумать), статья показывает, что модели могут самосовершенствоваться в абстрактных задачах на рассуждение, используя привилегированную информацию (истинную рубрику) во время обучения. Это позволило достичь 70% предпочтения по сравнению с бейзлайнами при оценке экспертами. Подробнее: https://t.me/gonzo_ML_podcasts/2047

Из этого канала