Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists Using Rubric Rewards __Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi, Parag Jain, William F. Shen, Ilias Leontiadis, Francesco Barbieri, Yoram Bachrach, Jonas Geiping, Chenxi Whitehouse__ Статья: https://arxiv.org/abs/2512.23707 Ревью: https://arxiviq.substack.com/p/training-ai-co-scientists-using-rubric # TL;DR ЧТО сделали: Предложили масштабируемый фреймворк для обучения LLM генерации строгих планов научных исследований. Вместо дорогого фидбека от людей или несуществующих симуляторов «мокрых» лабораторий, авторы используют существующие научные статьи. Из них извлекаются «Исследовательские цели» и соответствующие «Рубрики оценки» (критерии). Затем политика обучается через Reinforcement Learning (конкретно GRPO), где награду выдаёт модель, оценивающая свои же выходы по этим извлечённым рубрикам. ПОЧЕМУ это важно: Работа атакует «проблему отсутствия симулятора» в AI for Science. Если для задач типа сворачивания белков (AlphaFold) есть физические ограничения, то для открытого научного планирования вычислимой целевой функции не существует. Формализуя интуицию peer review (проверить план легче, чем придумать), статья показывает, что модели могут самосовершенствоваться в абстрактных задачах на рассуждение, используя привилегированную информацию (истинную рубрику) во время обучения. Это позволило достичь 70% предпочтения по сравнению с бейзлайнами при оценке экспертами. Подробнее: https://t.me/gonzo_ML_podcasts/2047
Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists…
Из этого канала
- #4555Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий…
Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий с множественными наградами.
- #4558Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов…
Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов (NoPE) уже были, но они выучиваются неидеально, сходимость таких моделей…
- #4562Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть…
Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть целиком, а работаем с ним, вызывая код для внешней обработки, и агрегируем…
- #4550Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target,…
Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target, Walmart и Wayfair анонсировали протокол UCP: Universal Commerce Protocol.
- #4547Не будем тянуть с разбором: Conditional Memory via Scalable Lookup: A New Axis…
Не будем тянуть с разбором: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models Xin Cheng, Wangding Zeng, Damai Dai, Qinyu…