Один из бенчмарков, который я не упомянул в посте выше (про GPT-5.1-Codex-Max)… — @seeallochnaya

Один из бенчмарков, который я не упомянул в посте выше (про GPT-5.1-Codex-Max) — это OpenAI-Proof Q&A. Это свежий бенчмарк, появившийся впервые в августе в карточке GPT-5, вместе с релизом модели. Этот бенчмарк состоит из 20 внутренних исследовательских и инженерных проблем, с которыми столкнулись сотрудники OpenAI. Каждая из этих проблем очень сложна, и приводила к задержке крупного проекта как минимум на один день, а в некоторых случаях влияла на результаты масштабных циклов обучения и запусков продуктов. Задания требуют от моделей диагностировать и объяснить сложные проблемы, такие как неожиданное снижение производительности, аномальные метрики обучения или неочевидные ошибки в реализации кода. Моделям предоставляется доступ к контейнеру с кодом и артефактами выполнения. GPT-5-Thinking получала там 0-2% качества, а вот вчерашняя GPT-5.1-Codex-Max уже скакнула до 8%, и это безумно здорово. Почему? Потому что во многих по-настоящему сложных задачах пройти путь от 0% до 7-9% куда сложнее, чем от 10% до больших двузначных чисел (75-90%). Есть некоторый набор навыков, который модели нужно научиться применять, чтобы щёлкать задачки. Такое мы видели и на SWE-Bench (и вот мы упёрлись в примерно 75%-80%, частично из-за шума в данных, частично из-за сложности последних нерешённых проблем), и на десятках других бенчмарков. Но SWE-Bench уж слишком заезженный, и у OpenAI, как и у любой другой фронтир-компании, есть внутренний аналог, основанный на задачах из своей же кодовой базы (ведь на ней модели не тренируют): OpenAI PRs. Этот бенчмарк оценивает, какую долю PR модель смогла бы имплементировать по описанию самостоятельно. Прогресс был такой: — GPT-4o (май 2024): 6% — o1 (сентябрь 2024): 12% — o3 / DeepResearch (февраль 2025): 42% — GPT-5-Thinking (август 2025): 45% — GPT-5.1-Codex-Max (ноябрь 2025): 53% Ещё не 90%, обещанных Dario Amodei, но 50% — половина PR'ов! — это очень много. Надеюсь, та же судьба ждёт и OpenAI-Proof Q&A — от нолика уже оторвались, теперь нужно масштабировать решение дальше и ждать приростов 📈 Не удивлюсь, если это будет один из бенчмарков, по которому будут оценивать Automated AI research intern в сентябре 2026го. Попросил GPT-5.1 Pro экстраполировать темпы роста качества с OpenAI PRs на OpenAI-Proof Q&A — получилась вот такая картинка. Ждём 🙏

Из этого канала