CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and Multi-Step Agentic Tool Use https://arxiv.org/abs/2602.12268 https://github.com/namezhenzhang/CM2-RLCR-Tool-Agent
CM2: Reinforcement Learning with Checklist Rewards for Multi-Turn and…
0 viewsОткрыть в Telegram →
Из этого канала
- #6006Какие енвы еще можно добавить в re-rl? https://github.com/researchim-ai/re-rl я…
Какие енвы еще можно добавить в re-rl? https://github.com/researchim-ai/re-rl я давно хотел lean добавить теперь он есть в целом наверное можно идти в…
- #6007QED-Nano: Teaching a Tiny Model to Prove Hard Theorems…
QED-Nano: Teaching a Tiny Model to Prove Hard Theorems…
- #6008интересно на мелких размерах такое повторить бы (всм еще более мелких)…
интересно на мелких размерах такое повторить бы (всм еще более мелких) https://t.me/researchim/3/6007
- #6002The Bitter Lesson Behind Building Agentic RL in Terminal Environments…
The Bitter Lesson Behind Building Agentic RL in Terminal Environments…
- #6001Сделал мини релиз новый…
Сделал мини релиз новый https://github.com/ArtyomZemlyak/rulka/releases/tag/v1.2.0 - Там апдейтнутая документация уже у меня развернутая…