Очередная прикольная работа про улучшение ризонинга: https://t.me/gonzo_ML_podcasts/386 Здесь предложен фреймворк ASTRO, который через MCTS генерит деревья решений, которые затем линеаризуются (с сохранением бэктрекинга) и на этом делается SFT, а за ним RLVR. Результат хорош (хотя и дороговат, наверное). Вообще какое-то безумное количество работ вокруг этой и близких тем сейчас идёт, это явно один из фронтиров. Недавняя RLIF сюда же.
Очередная прикольная работа про улучшение ризонинга:…
Из этого канала
- #3786В последнее время набрала популярность тема про генерацию картинок с азбукой…
В последнее время набрала популярность тема про генерацию картинок с азбукой через ChatGPT и подобное.
- #3788Человек! Не без помощи плохого перевода, видимо.
Человек! Не без помощи плохого перевода, видимо.
- #3797Прикольная работа прошлого года, которая в этом году доехала до ICML 2025:…
Прикольная работа прошлого года, которая в этом году доехала до ICML 2025: https://t.me/gonzoMLpodcasts/397 Внутри VLM формируются кросс-модальные…
- #3782"Субботнее нетрадиционное. Давно про книги не писал, и в частности всё никак не…
"Субботнее нетрадиционное. Давно про книги не писал, и в частности всё никак не напишу о двух крутых книгах, которые прочитал, ""Einstein's Mirror"" и ""The…
- #3769Итоговая идея -- надо сконцентрироваться на обновлении малых по магнитуде…
Итоговая идея -- надо сконцентрироваться на обновлении малых по магнитуде весов. Во-первых, благодаря оверпараметризации этого может быть достаточно.