Но этого всё ещё не достаточно, чтобы получить золотую медаль на IMO. Авторам приходится перейти к High-Compute Search, масштабируя вычисления как для генерации, так и верификации. Суть подхода вот в чём: создаётся и поддерживается пул кандидатов доказательств для каждой задачи, инициализированный 64 доказательствами. К каждому доказательству генерируется по 64 обоснования от верификатора. То есть 64x64=4096 обоснования/критики для каждой задачи👁 Затем на каждой итерации улучшений выбирается 64 доказательства с наивысшими оценками на основе средних оценок верификации. На первой итерации это просто все доказательства, потому что их и было 64, но дальше будет больше, поэтому нужно отсечение. Для каждого из выбранных доказательств случайно выбирается 8 анализов от верификатора, отдавая приоритет тем, которые выявляют проблемы (то есть имеют оценки 0 или 0.5). Каждая пара <доказательство от генератора — анализ от верификатора> используется для генерации одного улучшенного доказательства, которое затем добавляется в пул кандидатов. Улучшенное доказательство — это то же самое, что я разобрал выше: когда модель генерирует доказательство не с нуля, а на основе уже имеющегося + набора критики от верификатора. Этот процесс продолжается до 16 итераций или пока доказательство не получит все 64 максимальных оценки от верификатора, что указывает на высокую уверенность в правильности. Во всех экспериментах тут использовалась одна модель — финальный генератор доказательств, который выполняет как генерацию доказательств, так и верификацию (меняется только промпт). По итогу такая система может выиграть золото на IMO (поздравляем ребят с выигрышем AIMO? ждём решения от XTX Markets), но количество мощностей нужное для этого... нереально. На бенчмарках это конечно обходит все обычные модели, и даже специализированные системы (но не Gemini DeepThink, которая взяла золото летом). === Для не полностью решенных задач генератор обычно выявляет реальные проблемы в своих доказательствах, в то время как полностью решенные задачи проходят все 64 попытки верификации с максимальной оценкой. Это очень похоже на то, что рассказывали OpenAI про свою систему на IMO летом — мол, если посмотреть, то видно, что модель знает, что она не решила задачу, всё ещё есть недостатки.
Но этого всё ещё не достаточно, чтобы получить золотую медаль на IMO. Авторам…
Из этого канала
- #3150На ночь глядя пост-саммари двух постов: от TheInformation и Financial Times: —…
На ночь глядя пост-саммари двух постов: от TheInformation и Financial Times: — Чтобы увеличить выручку ChatGPT, OpenAI использует стратегию, которую применяли…
- #3152Свежий материал SemiAnalysis про TPU, специализированные чипы от Google для…
Свежий материал SemiAnalysis про TPU, специализированные чипы от Google для обучения и применения нейросетей.
- #3153— Хотя Google закупает TPU через Broadcom и платит значительную маржу, она…
— Хотя Google закупает TPU через Broadcom и платит значительную маржу, она существенно меньше той маржи, которую Nvidia получает не только с продажи GPU, но и…
- #3148И что на выходе? Для сложных задач с соревнований типа IMO модель часто не…
И что на выходе? Для сложных задач с соревнований типа IMO модель часто не может сгенерировать исчерпывающие и строгие доказательства с первой попытки в рамках…
- #3147"Более конкретно, что делается: 1) для каждого сгенерированного на определённом…
"Более конкретно, что делается: 1) для каждого сгенерированного на определённом шаге доказательства верификатор генерирует n независимых оценок и их…