MathArena Apex: Unconquered Final-Answer Problems Авторы MathArena домерили… — @seeallochnaya

MathArena Apex: Unconquered Final-Answer Problems Авторы MathArena домерили качество GPT-5, GPT-OSS и других моделей на совсем свежих математических соревнованиях и поняли: надо что-то менять. Модели решают почти всё! Поэтому решили поскрести по сусекам, собрать самые сложные задачи и какое-то время смотреть хотя бы на них. Авторы отсмотрели около сотни соревнований, проведённых в 2025м году в разных регионах, прогнали 4 модели по 4 раза на всех задачах из них, и лишь 12 задач (!) оказались ни разу нерешёнными. Модели, участвовавшие в фильтрации: Grok 4, GPT-5 (High), Gemini 2.5 Pro, GLM 4.5 Затем взяли 9 моделей, каждую прогнали по 16 раз — 8 задач были решены хотя бы по разу, но всё равно с очень низкой долей правильных ответов. Результаты в таблице на картинке. Не обращайте внимание на то, что Qwen в самом верху — он не участвовал в префильтрации (как было с DeepSeek R1 и HLE: когда добавляют хорошую модель, по ответам которой не отсеивали выборку, то она ожидаемо занимает хорошие места). Ни одна задача не решается ни одной моделью даже если делать голосование по 16 сгенерированным ответам — Qwen для первой задачи даёт лишь 7 правильных ответов. Положение моделей сейчас в целом не важно — будем ждать следующих релизов, чтобы ретроспективно оценить улучшения. Авторы проанализировали решения разных моделей и сделали несколько выводов. Самый очевидный — LLM часто допускают очень похожие ошибки, что говорит о наличии у них по крайней мере некоторых общих недостатков в способности к рассуждению. В результате наиболее распространённый неверный ответ на конкретную задачу часто встречается более чем в 50% всех попыток. Они также просили модели дать оценку неопределённости ответа (насколько модель понимает, что задача не решена), и все модели, кроме GPT-5 (временами), лажают: все уверены, что решение есть. Интересно, что для системы OpenAI, выигравшей золото на IMO, Noam Brown утверждал, что модель знала, мол, у неё нет корректного решения. Видимо, компания делает уверенные шаги в этом направлении. Более детальный анализ ошибок (и сами задачи) можно изучить тут.

Из этого канала