"Ребятки разбираются что дают SFT vs RL для ризонинга в VLMках Сначала взяли… — @AGI_and_RL

"Ребятки разбираются что дают SFT vs RL для ризонинга в VLMках Сначала взяли уже существующие датасеты картиночно-текстовые и по ним нагенерировали датасеты с трейсами для SFT и RL с дипсиком R1 и GPTшкой верифицировали. Генерили 2 сета один для SFT с трейсами размышлений, второй чисто для RL. SFT сет еще подразбивали на отдельные подмножества с aha моментами и на разные количества. Вообще получается, что у нас все сеты учебные нагенерены R1, потом почищены и перегенерены GPTшками, т.е. уже синтетические. Считаю важно отметить, ведь это может афектить на результат. Список изначальных датасетов по которым генерировали трейсы кстати в карточке прописаны: https://huggingface.co/datasets/UCSC-VLAA/VLAA-Thinking Тестились на других (на первом скрине). Нашли что в SFT сетах возникают как их назвали ""псевдо-aha"" моменты и ""псевдоризонинговые"" трейсы . aha это что-то вроде ""опапа я тут косячнул, сейчас переделаю"" Там бывают неправильные рассуждения или просто лишняя или нерелевантная информация, которая наоборот должна мешать. Ну и авторы пишут что такие трейсы дропают метрики. Кстати aha-трейсы авторы детектили по словам: wait, again, double-check, hmm, mistake, alternatively, check, i should confirm. Реварды для GRPO использовали как на правилах. так и ревард модельку подключали. Тюнили Qwen VL 2, 2.5 модельки. Что увидели просто SFT: ухудшает работу модельки. Причем чем больше SFT тем хуже. на 25к данных ухудшается на 32%, при 126к - на 47% в среднем. SFT с aha-моментами тоже роняет производительность. Дроп был как на 3B, так и на 7B модельке. Смотрим на 1 скрине, на некоторых тестовых сетах вообще дроп до 99.7% бывает. Применение SFT перед RL: также ухудшает результаты. Кстати, выросли реварды на RL после SFT меньше, чем без него, хотя стартовали выше (моделька скорее всего уже что-то подучила через SFT, что сразу помогает получше отвечать). 2 скрин Просто RL: ну тут просто рост и кайф. Так понял. Вообще очень интересно, что RL дает буст, а SFT может подпортить малинку. Почему так? 😑 Мне кажется что вклад некачественных синтетических SFT трейсов точно есть. SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models https://arxiv.org/abs/2504.11468 https://www.alphaxiv.org/ru/overview/2504.11468 https://ucsc-vlaa.github.io/VLAA-Thinking/ https://github.com/UCSC-VLAA/VLAA-Thinking заходи в https://t.me/researchim (мы там всякое делаем и ai статейки собираем)"

Из этого канала