"Закончили с призёрами NeurIPS, теперь финалисты. Статья про RLVR, который на… — @gonzo_ML

"Закончили с призёрами NeurIPS, теперь финалисты. Статья про RLVR, который на самом деле не находит ничего нового. Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? __Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang__ Статья: https://arxiv.org/abs/2504.13837, https://openreview.net/forum?id=4OsgYD7em5 Код: https://limit-of-rlvr.github.io Ревью: https://arxiviq.substack.com/p/neurips-2025-does-reinforcement-learning # TL;DR ЧТО сделали? В этой работе, прошедшей в финал (Best Paper Runner-Up) на NeurIPS 2025, авторы систематически исследовали границы возможностей рассуждающих моделей (reasoning models), обученных с помощью RLVR (Reinforcement Learning with Verifiable Rewards). Используя несмещённую метрику `pass@k` на задачах по математике, кодингу и визуальному мышлению, они сравнили базовые модели с их RL-версиями, чтобы выяснить: генерирует ли RLVR принципиально новые паттерны мышления или лишь усиливает существующие. ПОЧЕМУ это важно? Результаты разрушают популярный миф о том, что RLVR позволяет моделям автономно открывать ""сверхчеловеческие"" стратегии подобно AlphaGo. Исследование показывает: RLVR радикально улучшает *эффективность сэмплирования* (правильные ответы выпадают чаще), но не расширяет фундаментальные границы возможностей модели. На больших значениях k базовые модели часто решают *больше* уникальных задач, чем их RL-версии, что говорит об ограниченности текущих методов RL прайорами предобучения. Подробнее: https://t.me/gonzo_ML_podcasts/1513"

Из этого канала