DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности.… — @seeallochnaya

DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности. Бенчмарк новый, а по сути уже устаревший — GPT-5.5 выбивает 70% 👨‍🦳Структурно во многом повторяют SWE-Bench-like бенчмарки, но: — промпты не описывают детали имплементации, где и что — верификация сделана чуть более чисто, тесты направлены на наблюдаемое поведение, а не конкретную имплементацию — в среднем требуется добавить 668 строк кода (против 100-200 у многих предыдущих бенчмарков) — задачи основаны на публичных репозиториях, но не на коде, который был опубликован. Например, авторы брали незакрытую проблему, писали решение, и против него уже проверяют LLM. Результаты на первой картинке. Важный астериск — использовали `mini-swe-agent`, а не родные инструменты моделей, но на 10 случайно выбранных задачах показали, что просадки в качестве нет (на 10 примерах доверительный интервал поди +-4 😀) 3 и 4 картинки сравнивают разные модели по скорости работы (токены и время) и цене. Например, с Gemini 3.5 Flash наблюдается паттерн, который отметили многие — модель как бы работает быстрее, но ей и требуется гораздо больше токенов, потому выходит по цене так же, как... GPT-5.5 или Opus 4.6 😂(и дороже Gemini 3.1 Pro). Но хоть оценка не настолько плоха. Тут как ни посмотри, модели OpenAI впереди — быстрее, дешевле, лучше. Скорее всего причина в том, что их пайплайн подготовки задач гораздо более похож на тот, что использовали авторы DeepSWE. Но с другой стороны не думаю, что это объясняет прям всю разницу — уже вышло много бенчей, где 5.5 действительно на уровне или обходит Claude. На этом авторы не остановились, а начали анализировать результаты и траектории — для этого использовали LLM-агента, чтобы разметить паттерны ошибок (чтобы не пропускать как будто работающие, но плохие решения). Самые частые проблемы — это игнорирование части требований (GPT-5.5 опять хорошо выделяется следованием инструкций), ошибки интеграции и регрессия, когда из-за новой функциональности перестает работать старая. Для всех типов ошибок выложены траектории-примеры, очень рекомендую перейти на сайт и почитать хотя бы парочку; мне было интересно. Вот Блогпост И ещё авторы сделали пару наблюдений: — Claude плохо запоминает многосоставные промпты. Часто просят сделать A и Б, модель делает А, но про Б забывает. — сильные модели пишут тесты даже когда их об этом не просят. Особенно заметно в GPT (любители smoke tests тут? Наверняка заметили) и Claude, в 80% задач. Слабым ещё предстоит это освоить, глядишь, скор подрастет.

Из этого канала