gonzo-обзоры ML статей@gonzo_ML· 24 246 subs

Очередная прикольная работа про улучшение ризонинга:…

6 июл. 2025 г.5 739 views61 forwardsОткрыть в Telegram →

Очередная прикольная работа про улучшение ризонинга: https://t.me/gonzo_ML_podcasts/386 Здесь предложен фреймворк ASTRO, который через MCTS генерит деревья решений, которые затем линеаризуются (с сохранением бэктрекинга) и на этом делается SFT, а за ним RLVR. Результат хорош (хотя и дороговат, наверное). Вообще какое-то безумное количество работ вокруг этой и близких тем сейчас идёт, это явно один из фронтиров. Недавняя RLIF сюда же.

Источник

https://t.me/gonzo_ML/3785

Канал gonzo-обзоры ML статей · опубликовано 6 июл. 2025 г.

Из этого канала