GPT-5, мнение (1/2) It's a good model, sir (с) tl;dr: отличная модель для архитектурных обсуждений, сложного кода и парного программирования, но для агентской разработки я остаюсь на Claude Code. Ну что ж, несмотря на избыток хайпа, и, как следствие, завышенные ожидания от мажорного релиза, OpenAI всё-таки проделали хорошую работу. Это не революция, а скорее последовательный шаг вперёд, так что нам всё ещё __придётся работать самим__. Какие-то смешанные чувства по этому поводу :) Модель и окружение Все мои впечатления были сложены на основе использования GPT-5 Thinking, medium и high reasoning efforts в Cursor, Codex CLI и немного в вебе. Этот её вариант представляют как модель, на которую нужно переходить с o3, так что будет много сравнений именно с ней. Mini & nano намного хуже, так что их не было смысла рассматривать. Я буду ссылаться на бенчи из предудыщего поста. Написание кода Метрики по разработке подросли на всех бенчмарках относительно o3. Подтверждается ли на практике? Да, однозначно. В тех местах, где раньше использовалась o3, теперь надо использовать GPT-5. Все сферы применения o3 она покрывает и делает даже больше. Особенно хороша для: 🟢 небольшие-средние по размерам участки нетривиального кода; 🟢 алгоритмы, сложные интеграции, поиск нетривиальных решений; 🟢 поиск проблем в существующем коде; 🟢 архитектурные обсуждения. Особенности: (по сути, это всё торчащие наружу уши мощного ризонера) ⚪️ оверинжиниринг - стоит за этим следить, любит сорваться в детали и дотошно их прорабатывать там, где нужен более высокий уровень абстракции, любит писать сложный код, буквально __старается выглядеть умной__. Но для сценариев, где всё это действительно нужно - она хороша :) 🟢 стала более управляемой, но всё-таки иногда не может поверить в то, что неправа и продолжает гнуть свою линию; 🟢 гораздо реже галлюцинирует, но всё-таки случается; 🔴 медленная, причём как-то рандомно (возможно, это связано с текущей нагрузкой на сервера OpenAI), но всё-таки в среднем заметно медленнее Claude и Gemini. Стоит ли менять Sonnet в Cursor на GPT-5? Зависит от задач, но я поставил её моделью по дефолту (тут стоит отметить, что Cursor у меня на втором месте по частоте использования после Claude Code). Работа с контекстом Тут у нас лидером долгое время была Gemini, но теперь на контекстах до 256к токенов GPT-5 показывает лучше результаты по бенчмаркам. Размер контекста зависит от того, где вы с моделью работаете: ● сайт ChatGPT: * Free - 8k токенов * Plus - 32k токенов (Thinking - 192k) * Pro - 128k токенов (Thinking - ?) ● Cursor/Codex/API: полные 400K токенов (272k input + 128k output) Стоит отметить, что в классическом понимании у модели на самом деле 272к токенов контекста. Подтверждается ли на практике хорошая работа с контекстом? Да. Обсуждали с ней несколько развесистых архитектурных документов+код - действительно хорошо держит контекст и помнит много деталей по мере развития беседы, помнит принятые решения, внесённые изменения и т.п. (лучше, чем Claude, но примерно так же, как Gemini). Для обсуждения больших репозиториев больше 272к выбора нет - там, конечно же, Gemini в AI Studio. Использование инструментов На TAU-bench модель не стала сильно лучше o3, а на Terminal Bench она хуже Claude. Не видно радикального улучшения в использовании инструментов и в целом агентских сценариях. Подтверждается на практике? Да, и это сильно заметно. Задачи, которые может решить Claude в правильном окружении (Claude Code), будут просто длиннее и больше по объёму, чем задачи для GPT-5, которая в процессе: ● раньше остановится и задаст общий вопрос или спросит, нужно ли двигаться дальше; ● не сделает дополнительных вещей, которые можно было бы сделать, полагаясь на здравый смысл, без детальных инструкций; ● скорее всего сделает только то, что явно сказали (что, конечно же, может быть и плюсом). Думается, что модель в основном тренили на ваншот- и диалоговые сценарии работы, в режиме парного программирования, но индустрия с инструментами навроде СС уже пошла дальше, нам нужна агентскость и автономность. #ai #model #review
GPT-5, мнение (1/2) It's a good model, sir (с) tl;dr: отличная модель для…
Из этого канала
- #231GPT-5, мнение (2/2) Знания модели SimpleBench немного удивил - модель всё-таки…
GPT-5, мнение (2/2) Знания модели SimpleBench немного удивил - модель всё-таки хороша в соображалке на повседневных задачах, хотя я и обнаружил пробелы в…
- #232"Claude Code + Stream Deck = Claude Deck Рубрика ненормальное программирование…
"Claude Code + Stream Deck = Claude Deck Рубрика ненормальное программирование 🤪 Одна из приятных особенностей Claude Code - это его кастомизируемость.
- #235"Про строку состояния в Claude Code. У CC есть команда /statusline, которая…
"Про строку состояния в Claude Code. У CC есть команда `/statusline`, которая позволяет в вайб-режиме установить строку состояния.
- #229"GPT-5, бенчмарки Отобрал те, которые считаю важными для разработки (тут везде…
"GPT-5, бенчмарки Отобрал те, которые считаю важными для разработки (тут везде скорее всего gpt-5-thinking high).
- #228"Vibe Coding in Prod и деревья с листьями Попался доклад Эрика Шлунца из…
"Vibe Coding in Prod и деревья с листьями Попался доклад Эрика Шлунца из Anthropic - ""Vibe coding in prod"".