Очередная прикольная работа про улучшение ризонинга: https://t.me/gonzo_ML_podcasts/386 Здесь предложен фреймворк ASTRO, который через MCTS генерит деревья решений, которые затем линеаризуются (с сохранением бэктрекинга) и на этом делается SFT, а за ним RLVR. Результат хорош (хотя и дороговат, наверное). Вообще какое-то безумное количество работ вокруг этой и близких тем сейчас идёт, это явно один из фронтиров. Недавняя RLIF сюда же.