Давно как-то не доходили руки ничего написать в канал: то по работе дела, то статей интересных не было в моменте, то просто не хотелось. Тем не менее за месяц вышел ряд работ, которые мне показались интересными, с некоторых из них и начнем. ByteDance (TikTok) представила две статьи по RL тюнингу моделей, а именно вариации GRPO: DAPO и VAPO. Интересны они тем, что авторы детально рассматривают детали реализации GRPO и смотрят на моменты, которые можно улучшить, например: - Известно, что если делать большое кол-во шагов подитераций в PPO мы быстро начнем выходить за 1+eps (eps = 0.2 по дефолту), из-за чего градиент на данных семплах будет зануляться ⇒ обучение становится менее эффективным. Авторы поизучали этот вопрос и советуют клипать значения с двух сторон с разными epsilon. На эту тему есть еще одна интересная работа, где авторы смотрели на сценарий очень большого кол-во подтиреций внутри PPO-like лосса: TOPR. - Рассматривается вопрос о том, в каком порядке лучше усреднять лосс внутри батча, тк это может повлиять на вклад траекторий разной длины. Это очень важный вопрос в агентских системах, когда есть траектории, содержащие в себе длинные шаги, ошибки, дебаг, а есть те, которые решают задачу буквально за несколько шагов. - В VAPO главным моментом изучения стала модель-критик для оценки Advantage с помощью GAE. В GRPO и прочих методах одним из приятных преимуществ перед PPO было то, что не приходится учить отдельную модель, а Advantage мы оценивали как r_i - mean(r) по группе, где r_{1..n} - решения одной конкретной задачки. VAPO делает шаг назад и смотрит на то, как все-таки использовать критика для более эффективного обучения. Немного про это писал в посте про сам GRPO. Все это замеряется на Qwen2.5-32B на задаче AIME 2024 и сравнивается с DeepSeek-R1-Zero-Qwen-32B. В общем, это чисто технические статьи, которые будут интересны довольно узкому кругу. Совсем недавно ByteDance выпустил собственную 200B модель Seed-Thinking-v1.5, где в частности применили эти алгоритмы на последней стадии.
Давно как-то не доходили руки ничего написать в канал: то по работе дела, то…
Из этого канала
- #1062https://theaidigest.org/time-horizons Кому экспоненту?
https://theaidigest.org/time-horizons Кому экспоненту? ```Этот тренд был обнаружен исследователями из METR.
- #1063Тут подумали что можно для ризонинговых моделек после основного промта…
Тут подумали что можно для ризонинговых моделек после основного промта добавлять ```<|beginning of thinking|> Okay, I think I have finished thinking.
- #1067Ох уж эти вычислительно-оптимальные БЯМ 😏 Compute-Optimal LLMs Provably…
Ох уж эти вычислительно-оптимальные БЯМ 😏 Compute-Optimal LLMs Provably Generalize Better With Scale https://arxiv.org/abs/2504.15208…
- #1059RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и…
RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите
- #1058RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми…
RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки…