И что на выходе? Для сложных задач с соревнований типа IMO модель часто не… — @seeallochnaya

И что на выходе? Для сложных задач с соревнований типа IMO модель часто не может сгенерировать исчерпывающие и строгие доказательства с первой попытки в рамках одной цепочки рассуждений. Когда это происходит, в блоке само-критики генератор распознает, что его доказательство неверно и/или неполно, но ему не хватает длины контекста, чтобы решить все выявленные проблемы за одну попытку. Вот тут DeepSeek пишут мало деталей, и можно прочитать двояко, одна из трактовок — это что цепочки рассуждений у модели больше 120 тысяч токенов. Это ОЧЕНЬ много. Я модель у себя понятное дело не запускал, но сегодня в твиттере видел один (1) твит, где человек скинул скрин, что модель думала 70 минут и у неё кончился контекст — так что возможно это правильная интерпретация. Представляете, сколько ресурсов надо на все итерации обучения, если для каждой задачи вы генерируете много-много цепочек по 100+ тысяч токенов? Чтобы обойти эту проблему, авторы пробуют применить последовательное уточнение с самопроверкой. Сначала генерируется доказательство вместе с само-критикой, а затем итеративно повторно запрашивает генератор, передавая ему его предыдущее доказательство и критику, что позволяет модели исправлять выявленные ошибки. Процесс продолжается до тех пор, пока генератор сам себе не поставит идеальную оценку или не достигнет максимального числа последовательных шагов. Нигде здесь верифиактор или тем более мета-верификатор не применяются. На картинке горизонтально — рост метрик в зависимости от количества итераций. Видно, что модель научилась дописывать/исправлять доказательства, и даже после 6 итераций (по 100 тысяч токенов каждая???) приросты ещё идут. Best@32 здесь — это оценка лучшего доказательства для задачи, когда было запущено 32 независимых потока, и в каждом из них было по несколько итераций улучшений; из всех них выбирается лучшее решение на основе собственной же оценки (не верификатора). Одна проблема с этим графиком — по оси OY качество выражено как оценка верифиактора, а не человека, и поэтому такой рост в целом говорит о том, что модель выучилась критиковать себя так же, как и верификатор, ибо их оценки сильно коррелируют.

Из этого канала