На этих данных запустили RL-тренировку рассуждениям поверх… — @seeallochnaya

На этих данных запустили RL-тренировку рассуждениям поверх DeepSeek-V3.2-Exp-SFT с целью научить модель предсказывать оценку эксперта, глядя на уже написанное доказательство. Модели нужно самой научиться искать ошибки / пробелы, по которым можно прийти к правильному ответу. В системный промпт подавали рубрику — общее описание принципов разметки, по которым работали люди (то же описание, что я дал выше). В качестве функции награды использовали произведение двух величин: — бинарная 0/1 награда за форматирование ответа (чтобы из него можно было без проблем извлечь предсказание и произвести сравнение ниже) — модуль разности между оценкой эскперта и предсказанной оценкой (если предсказание правильное, то разность равна нулю, и штрафа нет). (для тех кто следит за математикой — это вычитается из единицы, так как мы тут умножать хотим, и получается что идеальный ответ превращает этот множитель в 1, а неправильный — в нуль) Кроме оценки в ответ модель должна написать обоснование (но оно никак не учитывается в тренировке — если текст есть, то за форматирование модель получает плюсик). Этот подход обучает модель угадывать оценки людей, но имеет всё тот же недостаток, что мы обсудили выше — он не обеспечивает контроля за выявленными проблемами. Верификатор может поставить условно 0.5 по совсем другим причинам, нежели человек, и сгаллюцинировать несуществующие проблемы, что подрывает доверие к нему. Чтобы решить эту проблему, авторы вводят.... мета-верификацию: вторичный процесс оценки, который проверяет, действительно ли существуют проблемы, указанные верификатором в обосновании, и оправдывают ли они предсказанную оценку доказательства. Если вы запутались: — DeepSeek-V3.2-Exp-Thinking нагенерировал много доказательств для некоторых задач — верификатор читает условия задач, сгенерированные DeepSeek-V3.2-Exp-Thinking доказательства, пишет обоснование и оценку — мета-верификтор проверяет, что верификатор не выдумал причины снизить или накинуть балл, не сгаллюцинировал. Как обучать мета-верификатор? Процесс точно такой же: 1) У нас уже есть первоначальный верификатор, который сгенерировал оценки для доказательств от какой-то модели 2) Математические эксперты оценили качество ответов верификатора в соответствии с рубрикой мета-верификации. В рубрике указано несколько типов ошибок проверки (неправильные переформулировки условий, неправильные расчёты, неправильный вывод, неправильное указание на ошибку, когда на самом деле ошибки нет), но главное что по итогу... нужно снова поставить одну из трёх оценок: 0, 0.5 или 1 в зависимости от количества ошибок в обосновании оценок. 3) На этих данных верификатор дообучается рассуждениям снова с помощью GRPO. К сожалению что для этого этапа, что для верификатора авторы не пишут, сколько часов ушло у экспертов на разметку, какой у них уровень экспертности (знаете, задачи на доказательство с международных олимпиад не каждый второй может отсмотреть и покритиковать), сколько это стоило и прочее.

Из этого канала