"Более конкретно, что делается: 1) для каждого сгенерированного на определённом шаге доказательства верификатор генерирует n независимых оценок и их обоснований 2) для тех случаев, где оценка 0 или 0.5 (то есть потенциально проблема, что-то неправильно или чего-то не хватает) генерируем по m мета-верификаций для подтверждения выявленных проблем. Анализ верификатора считается валидным, если большинство мета-оценок подтверждают его выводы (""да, все найденные проблемы реально есть""). 3) Для каждого доказательства мы рассматриваем несколько обоснований верификатора с наименьшими оценками. Если по крайней мере k таких анализов признаны валидными (критерий из пункта выше), всё доказательство помечается этой наименьшей оценкой. Если во всех попытках верификации не выявлено никаких проблем, доказательство помечается оценкой 1. В противном случае доказательство отбрасывается или передается людям-экспертам для разметки. Варьируя параметр k можно контролировать количество задач и доказательств, отправляемых людям на проверку. DeepSeek пишут, что в двух последних итерациях обучения этот пайплайн полностью заменил ручную аннотацию и стал автоматическим. Никакие задачи не передавались людям. Правда я не нашёл информации, а сколько всего итераций было, но не думаю, что больше 10 (или скорее даже 6-7). На каждой итерации сначала учат верификатор доказательств. Затем генератор доказательств инициализировался из этого верификатора и учился на генерацию доказательств. Начиная со второй итерации, верификатор инициализировался моделью, которая тренировалась (RFT) и на верификацию, и на генерацию доказательств. Такой процесс итеративного обучения — чередование улучшения возможностей верификации и использования их для улучшения генерации — создает устойчивый цикл, в котором каждый компонент продвигает другой вперед. GAN, for real."
"Более конкретно, что делается: 1) для каждого сгенерированного на определённом…
Из этого канала
- #3148И что на выходе? Для сложных задач с соревнований типа IMO модель часто не…
И что на выходе? Для сложных задач с соревнований типа IMO модель часто не может сгенерировать исчерпывающие и строгие доказательства с первой попытки в рамках…
- #3149Но этого всё ещё не достаточно, чтобы получить золотую медаль на IMO. Авторам…
Но этого всё ещё не достаточно, чтобы получить золотую медаль на IMO. Авторам приходится перейти к High-Compute Search, масштабируя вычисления как для…
- #3150На ночь глядя пост-саммари двух постов: от TheInformation и Financial Times: —…
На ночь глядя пост-саммари двух постов: от TheInformation и Financial Times: — Чтобы увеличить выручку ChatGPT, OpenAI использует стратегию, которую применяли…
- #3146На бумаге выглядит отлично, но если попробовать так сделать — то вы упрётесь в…
На бумаге выглядит отлично, но если попробовать так сделать — то вы упрётесь в критическую проблему: когда генератору предлагается одновременно и сгенерировать…
- #3145Итак, получили мета-верификатор. Что дальше? 🙂 а дальше ~~мета-мета-верифиактор…
Итак, получили мета-верификатор. Что дальше? 🙂 а дальше ~~мета-мета-верифиактор ~~модель мета-верификатора, обученная критиковать неправильные ответы…