DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning В… — @seeallochnaya

DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning В DeepSeekMath-V1 был представлен GRPO — алгоритм, приведший к появлению рассуждающих моделей. И это было ещё до o1 от OpenAI, правда в очень узком домене (но именно из-за его наличия DeepSeek смогли так быстро выпустить R1). Сегодня разбираем, что придумали китайцы для v2, и в конце порассуждаем, обобщается ли этот подход за границами математики. GRPO и его аналоги, использующиеся для тренировки рассуждающих моделей, требуют набор промптов / задач и функций верификации ответа. Именно поэтому мы увидели такой большой скачок в качестве в доменах, в которых верификация простая и однозначная: математика и программирование; для первого можно сравнить численный результат или выражение с заранее заготовленным и проверенным, для второго — прогнать тесты и оценить работоспособность кода. Если ответ неправильный или тесты не прошли — наказываем модель. Однако этот механизм имеет три фундаментальных ограничения. Во-первых, он служит ненадежным индикатором правильности рассуждений — модель может прийти к правильному ответу благодаря неполной логике или «удачным» ошибкам. Методы вроде GRPO и его самые популярные вариации оперируют только ответами, и никак не проверяют цепочку рассуждений. Для меня это было одной из точек удивления: я не верил, что поощряя шаги, в которых есть очевидно неправильные части, не делая никакой фильтрации, можно прийти даже к качеству первых рассуждающих моделей. Во-вторых, метод неприменим к задачам доказательства теорем, где ответы не требуют получения численных ответов, а основной целью является строгий вывод. В-третьих, этот подход не развивает способность моделей проверять правильность своих выкладок — они очень часто лгут и «придумывают» объяснения для уже совершённых ошибок, как бы в оправдание. DeepSeek возвращаются в старые добрые времена, когда для RL тренировали Reward Model — отдельную модель, оценивающую генерируемые во время тренировки ответы. В R1 (и до этого, в DeepSeekMath-V1) они от неё отказались для экономии памяти, но видимо карточки из Сингапура в обход санкций США доехали успешно 😀 и память появилась. Эта Reward Model в рамках работы называется Verifier, или верификатор. На данном этапе будем считать, что она принимает на вход текст задачи X, доказательство (= решение) Y, дальше в ходе рассуждений модель оценивает/ищет недостатки и в конце присваивает одну из трёх оценок: — 1 для полных и строгих доказательств со всеми четко обоснованными логическими шагами; — 0.5 для доказательств со здравой общей логикой, но незначительными ошибками или пропущенными деталями; — 0 для фундаментально ошибочных доказательств, содержащих критические проблемы и пробелы. Чтобы этот верификатор обучить, авторы отобрали 17.5 тысяч задач, требующих доказательств, с одного сайта. Для этих задач сгенерировали по несколько решений недавно выпущенной DeepSeek-V3.2-Exp-Thinking. Поскольку эта модель не была оптимизирована для доказательства теорем и имела тенденцию выдавать краткие ошибочные доказательства, авторы побуждали её итеративно улучшать свои ответы (через промпт в духе «вот задача, вот ответ, улучши»). После этого из разных подкатегорий задач взяли какое-то количество решений и отдали экспертам на разметку с вышеописанным критерием. Людям не нужно было чётко указывать, что именно не правильно в доказательствах, как надо и не надо — просто ставить одну цифорку, 0, 0.5 или 1.

Из этого канала