RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии. Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений. Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно! Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений. Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений. Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток. Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы. Статья, GitHub
RL не развивает потенциал рассуждений LLM (by Tsinghua) RL с верифицируемыми…
Из этого канала
- #1059RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и…
RL В С Ё 😕 Кстати я эту статью в https://t.me/researchim еще с утра положил и вы могли ее еще раньше там прочитать) заходите
- #1061Давно как-то не доходили руки ничего написать в канал: то по работе дела, то…
Давно как-то не доходили руки ничего написать в канал: то по работе дела, то статей интересных не было в моменте, то просто не хотелось.
- #1062https://theaidigest.org/time-horizons Кому экспоненту?
https://theaidigest.org/time-horizons Кому экспоненту? ```Этот тренд был обнаружен исследователями из METR.
- #1057Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и…
Несколько дней не видел обзорок по тест тайм скейлингам, RLям, CoT, агентам и вот этому всему.
- #1056"Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда…
"Добро пожаловать в эру обучения на опыте (от Дэвида Сильвера и Ричарда Саттона) Мол хорошие данные полученные от людей к концу подходят.