Грустно видеть, что несмотря на то, что про бенчмарк я пиал два раза за… — @seeallochnaya

Грустно видеть, что несмотря на то, что про бенчмарк я пиал два раза за последние 10 дней (7 и 11 октября), всё равно половина отметила «нет, не знаем». Я думал, что подводку хоть не надо будет писать, так как на слуху же, но нет... в общем, если не знаете — отправляю читать сюда. Сейчас на первых трёх уровнях сложности из четырёх лучшая модель, GPT-5-High, решает 29% задач. Но это если делать 1 прогон и сравнивать один ответ. Но если бы вы запустили GPT-5 бесконечное количество раз, решила бы она в конечном итоге все проблемы? Epoch.AI ~~развели~~ OpenAI на кредиты и решили это проверить, сделав по 32 прогона. Кроме этого, модели дали в 10 раз больше токенов на подумать, чем в прошлые замеры. Суммарно решили 134 задачи, или 46%. Авторы оценили динамику (см. первую и вторую картинки) и пришли к выводу, что скорее всего потолок примерно 50%. Из оставшихся задач выбрали 10 и прогнали ещё 100 раз — и ни в одной из попыток ни для одной из задач GPT-5 не смогла дать правильный ответ. Это согласуется с ожиданиями. Если же сделать суп из всех моделей и систем, которые тестировались на бенчмарке, включая ChatGPT Agent и Gemini Deep Think, то суммарно решается 57% задач, что почти наверянка не превышает 70%, если делать сильно больше прогонов. Зачем вообще заниматься такой оценкой? Она может подсказать нам, чего ждать от ближайших обновлений моделей. Из-за того, как устроен процесс обучения размышлениям, можно ожидать, что если задача решается хотя бы один раз в 32-64 генерации, то можно забутстрепить до плюс-минус надёжного решения этой и других схожих задач. И вот сейчас оказывается, что для 30% задач даже одной такой попытки нет. Правда у меня тут есть скепсис: часть задач в бенчмарке подразумевает поиск узкосепциализированной литературы по математическим разделам. Помню, что для некоторых задач давали описание, что их понимает буквально 10-20 человек на планете, и что по смежным темам есть по 2-3 статьи. Из всех замеренных систем только ChatGPT Agent имеет доступ в интернет, и он показывает самый лучший результат при 16 прогонах, решая 49% задач, 14 из которых не решены ни одной другой моделью (у GPT-5 тут 46% при 32 решениях и всего 1 уникальная задача). Epoch.AI пишут, что в будущем добавят возможность делать поиск в интернете — ждём обновлений результатов в будущем. По оценке авторов, в 2026-м модели будут решать +- 80% задач (с первой попытки, не группой).

Из этого канала