Один из бенчмарков, который я не упомянул в посте выше (про GPT-5.1-Codex-Max) — это OpenAI-Proof Q&A. Это свежий бенчмарк, появившийся впервые в августе в карточке GPT-5, вместе с релизом модели. Этот бенчмарк состоит из 20 внутренних исследовательских и инженерных проблем, с которыми столкнулись сотрудники OpenAI. Каждая из этих проблем очень сложна, и приводила к задержке крупного проекта как минимум на один день, а в некоторых случаях влияла на результаты масштабных циклов обучения и запусков продуктов. Задания требуют от моделей диагностировать и объяснить сложные проблемы, такие как неожиданное снижение производительности, аномальные метрики обучения или неочевидные ошибки в реализации кода. Моделям предоставляется доступ к контейнеру с кодом и артефактами выполнения. GPT-5-Thinking получала там 0-2% качества, а вот вчерашняя GPT-5.1-Codex-Max уже скакнула до 8%, и это безумно здорово. Почему? Потому что во многих по-настоящему сложных задачах пройти путь от 0% до 7-9% куда сложнее, чем от 10% до больших двузначных чисел (75-90%). Есть некоторый набор навыков, который модели нужно научиться применять, чтобы щёлкать задачки. Такое мы видели и на SWE-Bench (и вот мы упёрлись в примерно 75%-80%, частично из-за шума в данных, частично из-за сложности последних нерешённых проблем), и на десятках других бенчмарков. Но SWE-Bench уж слишком заезженный, и у OpenAI, как и у любой другой фронтир-компании, есть внутренний аналог, основанный на задачах из своей же кодовой базы (ведь на ней модели не тренируют): OpenAI PRs. Этот бенчмарк оценивает, какую долю PR модель смогла бы имплементировать по описанию самостоятельно. Прогресс был такой: — GPT-4o (май 2024): 6% — o1 (сентябрь 2024): 12% — o3 / DeepResearch (февраль 2025): 42% — GPT-5-Thinking (август 2025): 45% — GPT-5.1-Codex-Max (ноябрь 2025): 53% Ещё не 90%, обещанных Dario Amodei, но 50% — половина PR'ов! — это очень много. Надеюсь, та же судьба ждёт и OpenAI-Proof Q&A — от нолика уже оторвались, теперь нужно масштабировать решение дальше и ждать приростов 📈 Не удивлюсь, если это будет один из бенчмарков, по которому будут оценивать Automated AI research intern в сентябре 2026го. Попросил GPT-5.1 Pro экстраполировать темпы роста качества с OpenAI PRs на OpenAI-Proof Q&A — получилась вот такая картинка. Ждём 🙏
Один из бенчмарков, который я не упомянул в посте выше (про GPT-5.1-Codex-Max)…
Из этого канала
- #3116Nano Banana Pro aka Nano Banana 2 aka лучшая модель для генерации и исправления…
Nano Banana Pro aka Nano Banana 2 aka лучшая модель для генерации и исправления изображений на основе Gemini 3 должна быть анонсирована сегодня, и уже…
- #3117Появился блог: https://deepmind.google/models/gemini-image/pro/ В нём много…
Появился блог: https://deepmind.google/models/gemini-image/pro/ В нём много примеров, рекомендую посмотреть для вдохновления на сайте, но некоторые дёрнул для…
- #3125На смену вайб-кодингу в будущем придёт вайб-рисерч — OpenAI выпустили я бы…
На смену вайб-кодингу в будущем придёт вайб-рисерч — OpenAI выпустили я бы сказал документ эпохи, показывающий возможности LLM для ускорения научных открытий…
- #3114Я: пишу про необходимость изменения собеседований в эпоху AI META: начинает…
Я: пишу про необходимость изменения собеседований в эпоху AI META: начинает шевелиться Тот-самый-азиат: Перевод: Слышал об собеседующем из ByteDance, который…
- #3113Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей…
Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей — GPT-5.1-Codex, представленный 13-го ноября (6 дней назад), теперь уходит в…