SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks? Бенчмарк от Scale.AI на написание кода агентами, по сути SWE-Bench со значительно более сложными задачами. Всего 1865 задач из 41 репозитория с кодом на 4 языках (Python, Go, JS/TS), и разделены на 3 группы: — 731 задача в публичном сете — 858 задач в отложенном, на котором будут замерять в будущем, чтобы понять, есть ли переобучение моделей на конкретные репозитории — и самое главное, 276 задач из приватных репозиториев стартапов, к которым Scale.AI купили доступ. Их нет в интернете, и при этом задачи очень точно отражают конкретные запросы на написание кода сегодня. Правда тут у меня есть скепсис, что тесты могут быть не очень качественными и всеобъемлющими, а ведь именно по ним проверяется выполнение. В среднем каждая задача требует изменения в 107 строчках кода и в 4.1 файлах. Для сравнения, в оригинальном SWE-Bench это 32.8 строчек кода / 1.7 файла, в его очищенной OpenAI версии Verified — 14.33 строчки кода в 1.25 файлах. (тут нужно сделать для себя выводы о том, какого размера задачи стоит делегировать LLM-кам; понятно, что они фейлят, когда вы просите переписать весь проект на хаскель с нуля). Поэтому датасет и называется Pro: он сложнее, и вкупе с добавлением 3 языков стоит ожидать падения метрик. Для замера разных LLM используют SWE-Agent, и, к сожалению, не замеряют родные для моделей скаффолды: Codex / Claude Code. Модели OpenAI и Anthropic тут идут на равных и отрываются от остальных. В Commercial-части датасета (приватные репозитории стартапов) задач не так много, потому доверительные интервалы широкие, и хоть кажется, что Opus 4.1 обходит GPT-5 — это не стат. значимо. Зато на публичной части GPT-5 обходит Sonnet 4 из той же ценовой категории. Жаль, что не померили Qwen3-Coder на 480B, мне кажется он мог вполне сравниться с Gemini. Картинка 1: Commercial Dataset Картинка 2: Public Dataset
SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?…
Из этого канала
- #2889И ещё разбивка качества по языкам, количеству файлов (больше = сложнее = меньше…
И ещё разбивка качества по языкам, количеству файлов (больше = сложнее = меньше доля успеха моделей) и количеству строк кода в желаемом изменении.
- #2890Грядёт великая сепарация тиров пользователей... Интересно, появится ли тир за…
Грядёт великая сепарация тиров пользователей... Интересно, появится ли тир за 2'000 долларов, про который писали больше полугода назад?
- #2891Чуть больше недели назад в Cursor обновили Tab-модель — это которая…
Чуть больше недели назад в Cursor обновили Tab-модель — это которая подсказывает вам код прямо когда вы его пишете, без длительного ожидания генерации.
- #2886"Если раньше по чатикам и каналам чаще слышал от художников претензии к ИИ…
"Если раньше по чатикам и каналам чаще слышал от художников претензии к ИИ из-за того, что: - Оно обучается на чужих работах - Качество плохое То теперь (даже…
- #2885Ранее в этом году OpenAI поглотили компанию известного дизайнера Apple Jony Ive…
Ранее в этом году OpenAI поглотили компанию известного дизайнера Apple Jony Ive для работы над AI-first продуктом, призванным изменить наше взаимодействие с…