Вчера обновился лидерборд SWE-ReBench, с добавлением 51 свежей задачи за… — @seeallochnaya

Вчера обновился лидерборд SWE-ReBench, с добавлением 51 свежей задачи за октябрь. Для тех кто не следит, напомню, что ребята берут свежие PR из Python-репозиториев, подходящих под некоторые критерии, и прогоняют на них простого агента с разными моделями под капотом. Первенство остаётся за Sonnet 4.5, который слегка отрывается от GPT-5-medium / Codex в доле решаемых с первого раза задач, но существенно отрывается, если моделям давать по 5 независимых попыток и выбирать лучшую: 57% против 49 и 47% у моделей OpenAI. И даже от Sonnet 4 отрыв тоже 10%. При этом авторы гоняют бенчмарк на Sonnet 4.5 без рассуждений... но модель всё равно тратит больше токенов чем gpt-5 medium / high. Мне кажется это результат того, что используемый агент (инструменты + промпты) чуть больше отличаются для естественных у моделей OpenAI, чем у Anthropic: OpenAI рекомендует использовать модели так, чтобы им были доступны предыдущие рассуждения в рамках цепочки вызова инструментов, и сейчас на бенчмарке это выбрасывается. Очень жду, что авторы добавят хотя бы два агента, Claude Code и Codex, и протестируют с ними релевантные модели — было бы интересно увидеть гэп. Он точно есть, см. вот этот бенчмарк от Vercel (там агент авторов даёт 32% для Claude Sonnet 4 / 4.5, но 42% с Claude Code). Вангую, что и тут у моделей обеих компаний качество ощутимо подскочит, но какая будет лучше — хз, наверное, Anthropic. К другим инсайтам: — MiniMax M2 «самая экономически эффективная открытая модель из топа», но это на бумаге. Формально она стоит $0.255 / $1.02 против $1.25 / $10.00 за GPT-5 / Codex. Но OpenAI имеют кэширование промптов, которое предназначено как раз для длинных агентских сессий, состоящих из большого количества последовательных шагов. Вы платите на 90% меньше за входные токены, если они уже были обработаны. И по итогу цена за одно решение у M2 $0.44, а у Codex — $0.51. А разница в качестве 25% 🎃 При этом вместе с добавлением GPT-5.1 в API вчера OpenAI расширили кэш с 5-10 минут до 24 часов (за ту же цену, правда будет чуть медленее), так что вообще шик. — Если брать срез в 100 последних задач, то GPT-OSS 120b хоть и существенно отстаёт от фронтира (26.1% vs 44.4%), но... умудряется обгонять: DeepSeek-V3.1, Qwen3-235B, gpt-4.1, o4-mini, gemini-2.5-pro, и это при том, что она стоит 4 цента за задачу — самая дешёвая из всех, от некоторых из указанных моделей отрывается на порядок. Хорошая агентская модель для бейзлайна, получается. Grok Code Fast 1 мог с ней потягаться, за сентябрь у него была такая же цена и +- качество), но авторы не замерили модели xAI в октябре.

Из этого канала