"Более конкретно, что делается: 1) для каждого сгенерированного на определённом… — @seeallochnaya

"Более конкретно, что делается: 1) для каждого сгенерированного на определённом шаге доказательства верификатор генерирует n независимых оценок и их обоснований 2) для тех случаев, где оценка 0 или 0.5 (то есть потенциально проблема, что-то неправильно или чего-то не хватает) генерируем по m мета-верификаций для подтверждения выявленных проблем. Анализ верификатора считается валидным, если большинство мета-оценок подтверждают его выводы (""да, все найденные проблемы реально есть""). 3) Для каждого доказательства мы рассматриваем несколько обоснований верификатора с наименьшими оценками. Если по крайней мере k таких анализов признаны валидными (критерий из пункта выше), всё доказательство помечается этой наименьшей оценкой. Если во всех попытках верификации не выявлено никаких проблем, доказательство помечается оценкой 1. В противном случае доказательство отбрасывается или передается людям-экспертам для разметки. Варьируя параметр k можно контролировать количество задач и доказательств, отправляемых людям на проверку. DeepSeek пишут, что в двух последних итерациях обучения этот пайплайн полностью заменил ручную аннотацию и стал автоматическим. Никакие задачи не передавались людям. Правда я не нашёл информации, а сколько всего итераций было, но не думаю, что больше 10 (или скорее даже 6-7). На каждой итерации сначала учат верификатор доказательств. Затем генератор доказательств инициализировался из этого верификатора и учился на генерацию доказательств. Начиная со второй итерации, верификатор инициализировался моделью, которая тренировалась (RFT) и на верификацию, и на генерацию доказательств. Такой процесс итеративного обучения — чередование улучшения возможностей верификации и использования их для улучшения генерации — создает устойчивый цикл, в котором каждый компонент продвигает другой вперед. GAN, for real."

Из этого канала