ресечим/делаем (c) AI@researchim· 1 565 subs

POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration…

3 февр. 2026 г.0 viewsОткрыть в Telegram →

POPE: Learning to Reason on Hard Problems via Privileged On-Policy Exploration https://arxiv.org/abs/2601.18779 https://www.alphaxiv.org/ru/overview/2601.18779 https://github.com/CMU-AIRe/POPE https://blog.ml.cmu.edu/2025/11/26/how-to-explore-to-scale-rl-training-of-llms-on-hard-problems/

Источник

https://t.me/researchim/5901

Канал ресечим/делаем (c) AI · опубликовано 3 февр. 2026 г.

Из этого канала