Но этого всё ещё не достаточно, чтобы получить золотую медаль на IMO. Авторам приходится перейти к High-Compute Search, масштабируя вычисления как для генерации, так и верификации. Суть подхода вот в чём: создаётся и поддерживается пул кандидатов доказательств для каждой задачи, инициализированный 64 доказательствами. К каждому доказательству генерируется по 64 обоснования от верификатора. То есть 64x64=4096 обоснования/критики для каждой задачи👁 Затем на каждой итерации улучшений выбирается 64 доказательства с наивысшими оценками на основе средних оценок верификации. На первой итерации это просто все доказательства, потому что их и было 64, но дальше будет больше, поэтому нужно отсечение. Для каждого из выбранных доказательств случайно выбирается 8 анализов от верификатора, отдавая приоритет тем, которые выявляют проблемы (то есть имеют оценки 0 или 0.5). Каждая пара <доказательство от генератора — анализ от верификатора> используется для генерации одного улучшенного доказательства, которое затем добавляется в пул кандидатов. Улучшенное доказательство — это то же самое, что я разобрал выше: когда модель генерирует доказательство не с нуля, а на основе уже имеющегося + набора критики от верификатора. Этот процесс продолжается до 16 итераций или пока доказательство не получит все 64 максимальных оценки от верификатора, что указывает на высокую уверенность в правильности. Во всех экспериментах тут использовалась одна модель — финальный генератор доказательств, который выполняет как генерацию доказательств, так и верификацию (меняется только промпт). По итогу такая система может выиграть золото на IMO (поздравляем ребят с выигрышем AIMO? ждём решения от XTX Markets), но количество мощностей нужное для этого... нереально. На бенчмарках это конечно обходит все обычные модели, и даже специализированные системы (но не Gemini DeepThink, которая взяла золото летом). === Для не полностью решенных задач генератор обычно выявляет реальные проблемы в своих доказательствах, в то время как полностью решенные задачи проходят все 64 попытки верификации с максимальной оценкой. Это очень похоже на то, что рассказывали OpenAI про свою систему на IMO летом — мол, если посмотреть, то видно, что модель знает, что она не решила задачу, всё ещё есть недостатки.