Ну и давайте уж сразу не отходя от кассы посмотрим на самый свежий срез за июль. Внезапно GPT-5 оказывается впереди с большим отрывом от всех, особенно на pass@5 метрике (это процент решённых задач, если даётся по 5 попыток на каждую). GPT-5-medium Pass@1: 29.4% Pass@5: 38.2% Claude Sonnet 4 Pass@1: 20.6% Pass@5: 23.5% (Qwen 3 на 480B параметров тоже приятно удивил) Правда, тут всего 34 задачи (зато каждая по 5 раз прогнана, что позволяет оценить доверительные интервалы, см. картинку), выборка не велика, поэтому очень ждём начала следующей недели — автор лидерборда лично пообещал, что подкинут новых задач. Кстати, подписывайтесь на его канал: @c0mmit и на соавтора и на моего приятеля Сашу тоже: @AIexTime (Отвечу на немой вопрос, почему качество так упало к концу лета, и вместо 50%+ мы видим 20-30: автор бенчмарка сказал, что они намеренно начали фильтровать более сложные задачи, чтобы лучше дифференцировать модели. Чтож, разница действительно заметна) ((Отвечу на второй немой вопрос: GPT-5-high должен быть выше, но упирается в заданный лимит количества ходов агента, и потому просто не успевает закончить работу; это обещали исправить к следующему релизу результатов, и GPT-5 потенцильно сможет разогнаться ещё выше)) Ну и чтож, очень хороший прыжок от o3! It's a good model sir
Ну и давайте уж сразу не отходя от кассы посмотрим на самый свежий срез за…
Из этого канала
- #2833Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable…
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards Вчера мы разбирали статью DeepSeek, в которой рассказывалось, как…
- #2834После этого считаем, что у нас есть GRM для качественной оценки творческого…
После этого считаем, что у нас есть GRM для качественной оценки творческого письма, и теперь уже можно учить LLM, которая будет хорошо писать (потому что её во…
- #2835Авторы конечно показывают что модель улучшается по разным оценкам и всё круто,…
Авторы конечно показывают что модель улучшается по разным оценкам и всё круто, это не так интересно. Интересно другое.
- #2831На помощь пришёл SWE-ReBench от команды исследователей из Nebius. Они тоже…
На помощь пришёл SWE-ReBench от команды исследователей из Nebius. Они тоже видят проблему в SWE-Bench (что он статичен и заточен на 12 очень популярных…
- #2830"Ещё в конце июля наткнулся на репост вот этого текста парой каналов и хотел…
"Ещё в конце июля наткнулся на репост вот этого текста парой каналов и хотел написать его разгромную критику.