Итак, получили мета-верификатор. Что дальше? 🙂 а дальше ~~мета-мета-верифиактор ~~модель мета-верификатора, обученная критиковать неправильные ответы верификатора, добавляется в процесс его тренировки. Только теперь награда за правильный и неправильный ответ состоит из перемножения не двух, а трёх чисел: — то же самое за форматирование — то же самое за разницу оценки эксперта и предсказания модели — и оценка обоснования верификатора мета-верификатором. Если последний не смог найти недостатков — то всё чётко, никаких штрафов. Если нашел некоторые недостатки — верификатор получит лишь половину награды (потому что оценка обоснования 0.5). Если обоснование суперплохое, то будет нуль, самая маленькая награда. И кроме этого верификатор ещё одновременно обучается быть мета-верификатором, то есть он может и критиковать решения, и критиковать критику решений (в зависимости от промпта). Таким образом мы схлопываем 2 модели и 3 этапа обучения в одну модель, которая очень хорошая в оценке и очень редко галлюцинирует. Авторы пишут, что на отложенной выборке доказательств, не участвовавшей в тренировке, средняя оценка верификатора — по оценке мета-верификатора (😀) — улучшилась с 0.85 до 0.96, при сохранении той же точности в предсказании экспертных оценок для доказательств. То есть это не улучшило понимание того, какую оценку поставить, но улучшило понимание и глубину того, почему именно такая оценка ставится. Ну а дальше дорисовываем сову — теперь с сильным верификатором можно обучать генератор доказательств. Для тех кто потерялся — все описанные выше шаги делались на решениях, написанных голым DeepSeek-V3.2-Exp-Thinking из коробки, без дообучения, плюс на некотором количестве человеческой разметки. И вот сейчас можно начинать прокачивать эту модель, давая ей обратную связь, какие решения хорошие, а какие — плохие. Обучение происходит на тех же 17.5 тысячах задач из самого начала работы. Обратите внимание: ни для одного из этапов для этих задач НЕ НУЖНЫ полные решения/ответы/доказательства — мы получили какую-то часть от модели, затем попросили людей проверить их на адекватность быстрой оценкой. Это важно, потому что такая оценка гораздо быстрее создания решения с нуля — особенно в случаях, когда ошибки видны невооруженным глазом, и можно сразу сказать «это фигня, ставлю ноль». Ну вот мы обучили модель, можно на этом и закончить? Пойти померить метрики... и увидеть, что качество-то не фонтан. Когда генератору доказательств не удается создать полностью правильное доказательство с первой попытки — что часто случается для сложных задач с соревнований международного уровня — итеративная верификация и доработка могут улучшить результаты. Прямо напрашивается пайплайн: берём решение, делаем верификацию с поиском недостатков, делаем проверку мета-верификацией, отдаём генератору обратную связь и просим её учесть. Этот цикл можно повторять несколько раз, и главное он полностью автоматический, не требует вмешательства человека.