Guided by Trajectories: Repairing and Rewarding Tool-Use Trajectories for Tool-Integrated Reasoning https://arxiv.org/abs/2601.23032 https://www.alphaxiv.org/ru/overview/2601.23032
Guided by Trajectories: Repairing and Rewarding Tool-Use Trajectories for…
0 viewsОткрыть в Telegram →
Из этого канала
- #5888ребятки, а sdpo кажись работает
ребятки, а sdpo кажись работает
- #5889у него не сильно отличается кажется способ тренировки от твоего? он только взял…
у него не сильно отличается кажется способ тренировки от твоего? он только взял обычный калькулятор, а у тебя весь матан или я путаю?
- #5890ну разное у меня щас с искуственными данными больше упор на sft и чтобы иметь…
ну разное у меня щас с искуственными данными больше упор на sft и чтобы иметь возможность претренить свои модельки а чел тут через grpo пытается модельку чисто…
- #5885https://github.com/lean-dojo/LeanDojo-v2
https://github.com/lean-dojo/LeanDojo-v2
- #5884https://samikhan.ai/blog/countdown-rl.html
https://samikhan.ai/blog/countdown-rl.html