И что на выходе? Для сложных задач с соревнований типа IMO модель часто не может сгенерировать исчерпывающие и строгие доказательства с первой попытки в рамках одной цепочки рассуждений. Когда это происходит, в блоке само-критики генератор распознает, что его доказательство неверно и/или неполно, но ему не хватает длины контекста, чтобы решить все выявленные проблемы за одну попытку. Вот тут DeepSeek пишут мало деталей, и можно прочитать двояко, одна из трактовок — это что цепочки рассуждений у модели больше 120 тысяч токенов. Это ОЧЕНЬ много. Я модель у себя понятное дело не запускал, но сегодня в твиттере видел один (1) твит, где человек скинул скрин, что модель думала 70 минут и у неё кончился контекст — так что возможно это правильная интерпретация. Представляете, сколько ресурсов надо на все итерации обучения, если для каждой задачи вы генерируете много-много цепочек по 100+ тысяч токенов? Чтобы обойти эту проблему, авторы пробуют применить последовательное уточнение с самопроверкой. Сначала генерируется доказательство вместе с само-критикой, а затем итеративно повторно запрашивает генератор, передавая ему его предыдущее доказательство и критику, что позволяет модели исправлять выявленные ошибки. Процесс продолжается до тех пор, пока генератор сам себе не поставит идеальную оценку или не достигнет максимального числа последовательных шагов. Нигде здесь верифиактор или тем более мета-верификатор не применяются. На картинке горизонтально — рост метрик в зависимости от количества итераций. Видно, что модель научилась дописывать/исправлять доказательства, и даже после 6 итераций (по 100 тысяч токенов каждая???) приросты ещё идут. Best@32 здесь — это оценка лучшего доказательства для задачи, когда было запущено 32 независимых потока, и в каждом из них было по несколько итераций улучшений; из всех них выбирается лучшее решение на основе собственной же оценки (не верификатора). Одна проблема с этим графиком — по оси OY качество выражено как оценка верифиактора, а не человека, и поэтому такой рост в целом говорит о том, что модель выучилась критиковать себя так же, как и верификатор, ибо их оценки сильно коррелируют.
И что на выходе? Для сложных задач с соревнований типа IMO модель часто не…
Из этого канала
- #3149Но этого всё ещё не достаточно, чтобы получить золотую медаль на IMO. Авторам…
Но этого всё ещё не достаточно, чтобы получить золотую медаль на IMO. Авторам приходится перейти к High-Compute Search, масштабируя вычисления как для…
- #3150На ночь глядя пост-саммари двух постов: от TheInformation и Financial Times: —…
На ночь глядя пост-саммари двух постов: от TheInformation и Financial Times: — Чтобы увеличить выручку ChatGPT, OpenAI использует стратегию, которую применяли…
- #3152Свежий материал SemiAnalysis про TPU, специализированные чипы от Google для…
Свежий материал SemiAnalysis про TPU, специализированные чипы от Google для обучения и применения нейросетей.
- #3147"Более конкретно, что делается: 1) для каждого сгенерированного на определённом…
"Более конкретно, что делается: 1) для каждого сгенерированного на определённом шаге доказательства верификатор генерирует n независимых оценок и их…
- #3146На бумаге выглядит отлично, но если попробовать так сделать — то вы упрётесь в…
На бумаге выглядит отлично, но если попробовать так сделать — то вы упрётесь в критическую проблему: когда генератору предлагается одновременно и сгенерировать…