"Закончили с призёрами NeurIPS, теперь финалисты. Статья про RLVR, который на самом деле не находит ничего нового. Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? __Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang__ Статья: https://arxiv.org/abs/2504.13837, https://openreview.net/forum?id=4OsgYD7em5 Код: https://limit-of-rlvr.github.io Ревью: https://arxiviq.substack.com/p/neurips-2025-does-reinforcement-learning # TL;DR ЧТО сделали? В этой работе, прошедшей в финал (Best Paper Runner-Up) на NeurIPS 2025, авторы систематически исследовали границы возможностей рассуждающих моделей (reasoning models), обученных с помощью RLVR (Reinforcement Learning with Verifiable Rewards). Используя несмещённую метрику `pass@k` на задачах по математике, кодингу и визуальному мышлению, они сравнили базовые модели с их RL-версиями, чтобы выяснить: генерирует ли RLVR принципиально новые паттерны мышления или лишь усиливает существующие. ПОЧЕМУ это важно? Результаты разрушают популярный миф о том, что RLVR позволяет моделям автономно открывать ""сверхчеловеческие"" стратегии подобно AlphaGo. Исследование показывает: RLVR радикально улучшает *эффективность сэмплирования* (правильные ответы выпадают чаще), но не расширяет фундаментальные границы возможностей модели. На больших значениях k базовые модели часто решают *больше* уникальных задач, чем их RL-версии, что говорит об ограниченности текущих методов RL прайорами предобучения. Подробнее: https://t.me/gonzo_ML_podcasts/1513"
"Закончили с призёрами NeurIPS, теперь финалисты. Статья про RLVR, который на…
Из этого канала
- #4289"Зарисовки на тему программирования с моделями. Ещё совсем недавно я…
"Зарисовки на тему программирования с моделями. Ещё совсем недавно я пользовался AI лишь в режиме умного саджеста, а потом генерации кода по запросу в чате и…
- #4290"2. В другом примере качество по одной из метрик снова стагнировало на плато, я…
"2. В другом примере качество по одной из метрик снова стагнировало на плато, я попросил модель разобраться.
- #4291При этом я не могу сказать, что вся эта генерация контента и кода -- это плохо.…
При этом я не могу сказать, что вся эта генерация контента и кода -- это плохо. Это хорошо, потому что без неё, я бы сделал вдесятеро меньше (а в некоторых…
- #4285Ещё прекрасных механизмов вам в ленту…
Ещё прекрасных механизмов вам в ленту https://x.com/BrianRoemmele/status/1994524678191477101
- #4281"Следующая работа с NeurIPS 2025 Best Paper Award. Про динамику обучения…
"Следующая работа с NeurIPS 2025 Best Paper Award. Про динамику обучения диффузионок.