"Ребятки разбираются что дают SFT vs RL для ризонинга в VLMках Сначала взяли уже существующие датасеты картиночно-текстовые и по ним нагенерировали датасеты с трейсами для SFT и RL с дипсиком R1 и GPTшкой верифицировали. Генерили 2 сета один для SFT с трейсами размышлений, второй чисто для RL. SFT сет еще подразбивали на отдельные подмножества с aha моментами и на разные количества. Вообще получается, что у нас все сеты учебные нагенерены R1, потом почищены и перегенерены GPTшками, т.е. уже синтетические. Считаю важно отметить, ведь это может афектить на результат. Список изначальных датасетов по которым генерировали трейсы кстати в карточке прописаны: https://huggingface.co/datasets/UCSC-VLAA/VLAA-Thinking Тестились на других (на первом скрине). Нашли что в SFT сетах возникают как их назвали ""псевдо-aha"" моменты и ""псевдоризонинговые"" трейсы . aha это что-то вроде ""опапа я тут косячнул, сейчас переделаю"" Там бывают неправильные рассуждения или просто лишняя или нерелевантная информация, которая наоборот должна мешать. Ну и авторы пишут что такие трейсы дропают метрики. Кстати aha-трейсы авторы детектили по словам: wait, again, double-check, hmm, mistake, alternatively, check, i should confirm. Реварды для GRPO использовали как на правилах. так и ревард модельку подключали. Тюнили Qwen VL 2, 2.5 модельки. Что увидели просто SFT: ухудшает работу модельки. Причем чем больше SFT тем хуже. на 25к данных ухудшается на 32%, при 126к - на 47% в среднем. SFT с aha-моментами тоже роняет производительность. Дроп был как на 3B, так и на 7B модельке. Смотрим на 1 скрине, на некоторых тестовых сетах вообще дроп до 99.7% бывает. Применение SFT перед RL: также ухудшает результаты. Кстати, выросли реварды на RL после SFT меньше, чем без него, хотя стартовали выше (моделька скорее всего уже что-то подучила через SFT, что сразу помогает получше отвечать). 2 скрин Просто RL: ну тут просто рост и кайф. Так понял. Вообще очень интересно, что RL дает буст, а SFT может подпортить малинку. Почему так? 😑 Мне кажется что вклад некачественных синтетических SFT трейсов точно есть. SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models https://arxiv.org/abs/2504.11468 https://www.alphaxiv.org/ru/overview/2504.11468 https://ucsc-vlaa.github.io/VLAA-Thinking/ https://github.com/UCSC-VLAA/VLAA-Thinking заходи в https://t.me/researchim (мы там всякое делаем и ai статейки собираем)"
"Ребятки разбираются что дают SFT vs RL для ризонинга в VLMках Сначала взяли…
Из этого канала
- #1050Кстати, пишите в коментах какими модельками пользуетесь больше всего? В курсоре…
Кстати, пишите в коментах какими модельками пользуетесь больше всего? В курсоре клод 3.7 в чатгпт - 4.5 и 4o Есть ли среди нас фанаты гигачата и яндекс гпт?…
- #1051Вчера еще собирался вот это к посту прикрепить (в иксе авторов взял) Но забыл.…
Вчера еще собирался вот это к посту прикрепить (в иксе авторов взял) Но забыл. RL типа вот такой сильный крутой дракон, а остальные вот ну глупые кароч.
- #1052Ребятки, на https://www.alphaxiv.org/ приехал o4-mini Напоминаю, что это как…
Ребятки, на https://www.alphaxiv.org/ приехал o4-mini Напоминаю, что это как соцсеть по архиву и там можно чатиться с ллмками по архивным статьям
- #1046Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab…
Из реально прикольного пишут что автономный дрон из Micro Air Vehicle Lab Делфта обошел 13 других дронов, а еще обошел людей в гонках на A2RL Drone…
- #1045Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini ну и…
Из вчерашнего релиза ОпенАИ имеем революционные и рекордные o3 и o4-mini ну и они выпустили кодового агента https://github.com/openai/codex Но я пока все же на…