OpenAI выпустили новую GPT-5 😑 ...заточенную на программистов, GPT-5 Codex. Эта модель заменит o3 в Codex в веб-клиенте (наконец-то) и уже доступна в локальном Codex CLI / плагине для вашей IDE. Если вы ещё не пробовали — обязательно попробуйте! Это бесплатно, если вы подписаны на любой тир ChatGPT. В комментариях многие отмечали, что им нравится больше, чем Claude Code, и модель работает лучше. GPT-5 Codex дотренировали на новых сложных реальных задач, создании проектов с нуля, добавлении функций и тестов, отладке, проведении масштабных рефакторингов и ревью кода. По стандартному бенчмарку SWE-bench Verified разница не особо заметна, 74.5% против старых 72.8%. Однако на внутреннем бенчмарке OpenAI на задачах рефакторинга модель стала гораздо лучше: прыжок с 33.9% до 51.3%! Но и это не всё: модель стала писать меньше бесполезных или ошибочных комментариев, лучше ловить баги в коде, и... думать меньше, когда это не надо. OpenAI взяли запросы от сотрудников внутри компании и сравнили количество токенов в ответах двух моделей. Там, где ответы были короткими, они стали ещё короче, а там, где цепочки рассуждений и сгенерированный код были длиннее — стало больше. Со слов OpenAI, во время они наблюдали, как GPT‑5-Codex работал автономно более 7 часов подряд над большими и сложными задачами, выполняя итерации по внедрению, исправляя ошибки тестирования и в конечном итоге обеспечивая успешное решение задачи. Codex CLI и Codex Web получили кучу обновлений за последний месяц, но про них писать не буду. В API модель появится скоро, очень ждём, пока замеряют качество и на других бенчмарках. В системной карточке модели указали лишь один — по решению многоступенчатых задачек по кибер-взлому (с соревнований CTF). Модель наконец-то статистически значимо обгоняет o3! Жаль, не замерили другие бенчмарки (вроде PaperBench).
OpenAI выпустили новую GPT-5 😑 ...заточенную на программистов, GPT-5 Codex. Эта…
Из этого канала
- #2861Выше в канале писал про то, что роутер в GPT-5, определяющий, отправлять ваш…
Выше в канале писал про то, что роутер в GPT-5, определяющий, отправлять ваш запрос в думающую модель или в обычную чат-модель, в будущем может превратиться в…
- #2862SemiAnalysis — про xAI: — кластер Colossus 1, построенный за рекордные 122 дня…
SemiAnalysis — про xAI: — кластер Colossus 1, построенный за рекордные 122 дня и вмещающий примерно 200'000 H100/H200 и ~30'000 GB200, остаётся самым большим…
- #2864Реструктуризация OpenAI в двух графиках OpenAI уже довольно долгое время ведёт…
Реструктуризация OpenAI в двух графиках OpenAI уже довольно долгое время ведёт диалог со всеми заинтересованными лицами о том, чтобы превратиться из…
- #2856Картинка с пайплайном для наглядности
Картинка с пайплайном для наглядности
- #2855Jupyter Agents: training LLMs to reason with notebooks Не статья, но блогпост…
Jupyter Agents: training LLMs to reason with notebooks Не статья, но блогпост от 🤗Huggingface про то, как они дообучали Qwen3-4b как Jupyter Agent — для…