Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей — GPT-5.1-Codex, представленный 13-го ноября (6 дней назад), теперь уходит в статус legacy models, и на смену приходит GPT-5.1-Codex-Max 😳 отлично исправили проблему нейминга, молодцы 🤡 Эта модель, по сравнению со всеми предыдущими инструментами компании, получила возможность пользоваться новым инструментом `compaction`, сжимающим контекст и позволяющим продолжать работу дольше. Такой же инструмент недавно появился у Claude (по моему, с выходом Sonnet 4.5 в конце сентября). Важно то, что модель не просто получает этот инструмент пост-фактум — он доступен во время тренировки, и модель учится им пользоваться, чтобы обходить свои же ограничения. Это ведёт к меньшему потреблению токенов и времени работы, и, потенциально, к более высокому качеству. Это открывает доступ к рефакторингу целых проектов, глубоким сеансам отладки и многочасовым циклам агентов. Кроме этого, в тренировку докинули задачи на Windows, и модель лучше работает с PowerShell — так что тестировщики Codex на винде, и на вашей улице праздник 🫡 И последнее важное изменение — добавили режим рассуждений Extra High, чтобы дать модели ещё больше времени и токенов на решение ваших проблем. «Внутри компании 95% инженеров OpenAI используют Codex еженедельно, и эти инженеры отправляют примерно на 70% больше запросов на включение изменений с момента внедрения Codex» Результаты на широком наборе бенчмарков можно посмотреть тут в карточке модели и немного на сайте. Выжимка для вас: — SWE-Bench Verified: 73.7% ➡️ 77.9% (но это уже устарело, интересно посмотреть менее заезженные бенчмарки) — SWE-Lancer IC SWE (бенчмарк OpenAI на выполнение задач UpWork): 66.3% ➡️ 79.9% — TerminalBench 2.0: 52.8% ➡️ 58.1% — Troubleshooting Bench (внутрненний бенчмарк по пролтоколам биологических эксперитментов, ответы для которого не доступны онлайн): 32% ➡️ 40% 😳 — CTF-соревнования на поиск уязвимостей: 50% ➡️ 76% — CVE-Bench (тоже поиск уязвимостей): 61% ➡️ 80% — PaperBench (воспроизведение статей с ICLR прошлого года): 34% ➡️ 40% — MLE-bench (решение для Kaggle-соревнований): 12% ➡️ 17% — внутренние PR компании: 45% ➡️ 53% И очень ждём внешних независимых замеров и фидбека. Модель доступна всем в Codex, имеет те же лимиты, в API добавят скоро.
Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей…
Из этого канала
- #3114Я: пишу про необходимость изменения собеседований в эпоху AI META: начинает…
Я: пишу про необходимость изменения собеседований в эпоху AI META: начинает шевелиться Тот-самый-азиат: Перевод: Слышал об собеседующем из ByteDance, который…
- #3115Один из бенчмарков, который я не упомянул в посте выше (про GPT-5.1-Codex-Max)…
Один из бенчмарков, который я не упомянул в посте выше (про GPT-5.1-Codex-Max) — это OpenAI-Proof Q&A.
- #3116Nano Banana Pro aka Nano Banana 2 aka лучшая модель для генерации и исправления…
Nano Banana Pro aka Nano Banana 2 aka лучшая модель для генерации и исправления изображений на основе Gemini 3 должна быть анонсирована сегодня, и уже…
- #3112Вторая категория — агентские, с итерациями и обратной связью. Тут пока только…
Вторая категория — агентские, с итерациями и обратной связью. Тут пока только два бенчмарка, про один, Vending Bench, я писал вчера.
- #3111Первая категория бенчмарков — это на знания, насколько много мелких сложных…
Первая категория бенчмарков — это на знания, насколько много мелких сложных фактов и нюансов зашито внутри модели.