SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? Бенчмарк от Scale.AI на написание кода агентами, по сути SWE-Bench со значительно более сложными задачами. Всего 1865 задач из 41 репозитория с кодом на 4 языках (Python, Go, JS/TS), и разделены на 3 группы: — 731 задача в публичном сете — 858 задач в отложенном, на котором будут замерять в будущем, чтобы понять, есть ли переобучение моделей на конкретные репозитории — и самое главное, 276 задач из приватных репозиториев стартапов, к которым Scale.AI купили доступ. Их нет в интернете, и при этом задачи очень точно отражают конкретные запросы на написание кода сегодня. Правда тут у меня есть скепсис, что тесты могут быть не очень качественными и всеобъемлющими, а ведь именно по ним проверяется выполнение. В среднем каждая задача требует изменения в 107 строчках кода и в 4.1 файлах. Для сравнения, в оригинальном SWE-Bench это 32.8 строчек кода / 1.7 файла, в его очищенной OpenAI версии Verified — 14.33 строчки кода в 1.25 файлах. (тут нужно сделать для себя выводы о том, какого размера задачи стоит делегировать LLM-кам; понятно, что они фейлят, когда вы просите переписать весь проект на хаскель с нуля). Поэтому датасет и называется Pro: он сложнее, и вкупе с добавлением 3 языков стоит ожидать падения метрик. Для замера разных LLM используют SWE-Agent, и, к сожалению, не замеряют родные для моделей скаффолды: Codex / Claude Code. Модели OpenAI и Anthropic тут идут на равных и отрываются от остальных. В Commercial-части датасета (приватные репозитории стартапов) задач не так много, потому доверительные интервалы широкие, и хоть кажется, что Opus 4.1 обходит GPT-5 — это не стат. значимо. Зато на публичной части GPT-5 обходит Sonnet 4 из той же ценовой категории. Жаль, что не померили Qwen3-Coder на 480B, мне кажется он мог вполне сравниться с Gemini. Картинка 1: Commercial Dataset Картинка 2: Public Dataset