POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration https://arxiv.org/abs/2601.18779 https://www.alphaxiv.org/ru/overview/2601.18779 https://github.com/CMU-AIRe/POPE https://blog.ml.cmu.edu/2025/11/26/how-to-explore-to-scale-rl-training-of-llms-on-hard-problems/
POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration…
0 viewsОткрыть в Telegram →
Из этого канала
- #5902В sdpo добавляю поддержку тюнинга с лорой ждьом
В sdpo добавляю поддержку тюнинга с лорой ждьом
- #5903вместо 21гб приятнее но дело еще в том - натюнится ли
вместо 21гб приятнее но дело еще в том - натюнится ли
- #5904Кстати дальше по курсу попробуем себе закатить…
Кстати дальше по курсу попробуем себе закатить https://huggingface.co/docs/trl/lorawithoutregret
- #5900SWE-Universe: Scale Real-World Verifiable Environments to Millions…
SWE-Universe: Scale Real-World Verifiable Environments to Millions https://arxiv.org/abs/2602.02361
- #5899если ты побольше в этом посте распишешь про суть то я бы просто в канал…
если ты побольше в этом посте распишешь про суть то я бы просто в канал репостнул я итак могу канеш но люди не поймут прикола