OpenAI отменили SWE-bench Verified – главный современный бенчмарк по кодингу Они выпустили целое исследование, основная мысль которого: SWE-bench Verified (который сделали, кстати, сами OpenAI в 2024) больше не измеряет реальные способности моделей в разработке, и пользоваться им не стоит. Кстати, это выглядит как косвенный выпад в сторону Anthropic. Они там до сих пор делают ставку на SWE Verified, а OpenAI фактически приходят и заявляют, что этот бенч сломан и результаты на нем мало что значат. На фоне последних событий это вряд ли случайность 💀 В чем, собственно, проблема SWE-bench Verified: 1️⃣ Тесты часто отбрасывают корректные решения. OpenAI сделали ручной аудит сложных задач и выяснили, что в 59.4% этих задач есть проблемы тест-дизайна/описания, из-за которых задачу становится крайне трудно или вообще невозможно решить честно, даже человеку. Например, тесты требуют конкретных деталей реализации, которые не обязательны для функционально верного решения. Или тесты проверяют дополнительную функциональность, которая не описана в задаче. В таких случаях эвал, очевидно, становится некорректным. 2️⃣ Классический contamination, то есть утечка задач в трейн моделей. Бенчмарк собран из опенсорс репозиториев, так что этого стоило ожидать. OpenAI пишут, что нашли признаки contamination у всех фронтирных моделей, которые они тестировали. В частности, выяснилось, что GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview знают не только точный gold patch для решения, но и воспроизводят точные пути к файлам, цитируют комментарии из диффа или просто по ID могут вспомнить формулировку задачи. Итого вывод OpenAI следующий: тесты часто неправильно устроены, так что нерешаемый хвост бенчмарка – это шум, сражаться за который не стоит. А если процент и растет, то это в основном узнавание, а не рост реальных навыков. Вместо SWE-bench Verified они теперь советуют SWE-bench Pro (у него тоже все не идеально, но по их данным contamination там заметно слабее, и ни одна модель не смогла воспроизвести полный gold patch дословно). Фишка, правда, в том, что SWE-bench Pro открыт только частично, и чтобы получить на нем официальный результат, нужно проходить через организаторов. То есть, через OpenAI 🙂 openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
OpenAI отменили SWE-bench Verified – главный современный бенчмарк по кодингу…
Из этого канала
- #8780"Anthropic публично обвинили несколько крупных китайских стартапов в массовой…
"Anthropic публично обвинили несколько крупных китайских стартапов в массовой дистилляции Claude Провинились DeepSeek, Moonshot AI (создатели Kimi K2) и…
- #8781О, в Claude Code добавили удаленный котроль Документация Сессию нельзя…
О, в Claude Code добавили удаленный котроль Документация Сессию нельзя запустить прямо с телефона, так что это не совсем OpenClaw (хотя фича определенно им…
- #8782Стартап inception выпустил диффузионную модель Mercury 2 – самую быструю…
Стартап inception выпустил диффузионную модель Mercury 2 – самую быструю ризонинг-LLM в мире на данный момент Она работает со скоростью (приготовьтесь) 1009…
- #8778OpenClaw удалил более 200 писем сотрудницы из Meta И все бы ничего, но это…
OpenClaw удалил более 200 писем сотрудницы из Meta[](https://telegra.ph/Prinadlezhit-Meta-09-18) И все бы ничего, но это была… глава отдела AI Safety &…
- #8777Проект Stargate, кажется, понемногу распадается Да, речь про тот самый…
Проект Stargate, кажется, понемногу распадается Да, речь про тот самый Stargate, который год назад так амбициозно стартовал как манхэттенский проект для ИИ.