Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей… — @seeallochnaya

Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей — GPT-5.1-Codex, представленный 13-го ноября (6 дней назад), теперь уходит в статус legacy models, и на смену приходит GPT-5.1-Codex-Max 😳 отлично исправили проблему нейминга, молодцы 🤡 Эта модель, по сравнению со всеми предыдущими инструментами компании, получила возможность пользоваться новым инструментом `compaction`, сжимающим контекст и позволяющим продолжать работу дольше. Такой же инструмент недавно появился у Claude (по моему, с выходом Sonnet 4.5 в конце сентября). Важно то, что модель не просто получает этот инструмент пост-фактум — он доступен во время тренировки, и модель учится им пользоваться, чтобы обходить свои же ограничения. Это ведёт к меньшему потреблению токенов и времени работы, и, потенциально, к более высокому качеству. Это открывает доступ к рефакторингу целых проектов, глубоким сеансам отладки и многочасовым циклам агентов. Кроме этого, в тренировку докинули задачи на Windows, и модель лучше работает с PowerShell — так что тестировщики Codex на винде, и на вашей улице праздник 🫡 И последнее важное изменение — добавили режим рассуждений Extra High, чтобы дать модели ещё больше времени и токенов на решение ваших проблем. «Внутри компании 95% инженеров OpenAI используют Codex еженедельно, и эти инженеры отправляют примерно на 70% больше запросов на включение изменений с момента внедрения Codex» Результаты на широком наборе бенчмарков можно посмотреть тут в карточке модели и немного на сайте. Выжимка для вас: — SWE-Bench Verified: 73.7% ➡️ 77.9% (но это уже устарело, интересно посмотреть менее заезженные бенчмарки) — SWE-Lancer IC SWE (бенчмарк OpenAI на выполнение задач UpWork): 66.3% ➡️ 79.9% — TerminalBench 2.0: 52.8% ➡️ 58.1% — Troubleshooting Bench (внутрненний бенчмарк по пролтоколам биологических эксперитментов, ответы для которого не доступны онлайн): 32% ➡️ 40% 😳 — CTF-соревнования на поиск уязвимостей: 50% ➡️ 76% — CVE-Bench (тоже поиск уязвимостей): 61% ➡️ 80% — PaperBench (воспроизведение статей с ICLR прошлого года): 34% ➡️ 40% — MLE-bench (решение для Kaggle-соревнований): 12% ➡️ 17% — внутренние PR компании: 45% ➡️ 53% И очень ждём внешних независимых замеров и фидбека. Модель доступна всем в Codex, имеет те же лимиты, в API добавят скоро.

Из этого канала