Ну и давайте уж сразу не отходя от кассы посмотрим на самый свежий срез за… — @seeallochnaya

Ну и давайте уж сразу не отходя от кассы посмотрим на самый свежий срез за июль. Внезапно GPT-5 оказывается впереди с большим отрывом от всех, особенно на pass@5 метрике (это процент решённых задач, если даётся по 5 попыток на каждую). GPT-5-medium Pass@1: 29.4% Pass@5: 38.2% Claude Sonnet 4 Pass@1: 20.6% Pass@5: 23.5% (Qwen 3 на 480B параметров тоже приятно удивил) Правда, тут всего 34 задачи (зато каждая по 5 раз прогнана, что позволяет оценить доверительные интервалы, см. картинку), выборка не велика, поэтому очень ждём начала следующей недели — автор лидерборда лично пообещал, что подкинут новых задач. Кстати, подписывайтесь на его канал: @c0mmit и на соавтора и на моего приятеля Сашу тоже: @AIexTime (Отвечу на немой вопрос, почему качество так упало к концу лета, и вместо 50%+ мы видим 20-30: автор бенчмарка сказал, что они намеренно начали фильтровать более сложные задачи, чтобы лучше дифференцировать модели. Чтож, разница действительно заметна) ((Отвечу на второй немой вопрос: GPT-5-high должен быть выше, но упирается в заданный лимит количества ходов агента, и потому просто не успевает закончить работу; это обещали исправить к следующему релизу результатов, и GPT-5 потенцильно сможет разогнаться ещё выше)) Ну и чтож, очень хороший прыжок от o3! It's a good model sir

Из этого канала