Обсуждал со знакомым релиз GPT-5, и он в попытках переубедить меня написал следующее: «Такое упражнение: отмотай на год назад и посмотри на свои ожидания от gpt-5». И... я ещё раз убедился, что действительно за всего лишь год индустрия прошла большой путь: — год назад даже не было рассуждающих моделей, первая, o1, была представлена лишь в сентябре (и нам дали поиграться с preview) — основной рабочей лошадкой были GPT-4o и Claude 3.5 (даже не 3.6) — не было ни Deep Research, ни Pro-версии; любой большой анализ часто занимал 3-4-5-6 промптов, и задачу приходилось футболить туда-сюда. Я не помню, чтобы пользовался LLM-поиском и агрегацией новостей, так как не доверял качеству, но возможно в августе уже было неплохо. — максимальный объём кода, который я ожидал от модели в ответ на свой запрос, был примерно 100-150 строк. Рассуждающие модели конечно сильно нарастили этот объём. o3, выпущенная 16 апреля — за 3.5 месяца до GPT-5 — была значимым шагом по отношению к o1, особенно в части поиска, и если бы её назвали GPT-5 — многие, включая меня, были бы рады. Но этого не случилось. Как я не ожидал анонса o3 на декабрьских стримах под предлогом «так o1 вот только-только же показали, куда ещё то?», так и не ожидал огромного эпохального скачка от апреля до августа. При этом для бесплатных пользователей и для значимой части платных новые рассуждающие модели — это большой скачок. Я не знаю, как надо сравнивать оригинальный релиз GPT-4 и GPT-5, чтобы говорить, что не произошло скачка как минимум уровня GPT-3.5 -> GPT-4. Просто все улучшения мы получали порциями и пробовали сразу: гораздо более дешёвая GPT-4-Turbo, чуть более умная и ещё более дешёвая GPT-4o (у которой вышло 3-4 версии!), рассуждающие модели, агенты. И действительно каждый отдельный шаг мог не казаться большим (ну, кроме ризонеров). Множество маленьких шагов приводят к большим переменам. Общая тенденция по-прежнему весьма позитивна. Как я писал про Gemini 2.5, и как я пишу сейчас про GPT-5 — модели становятся лучше, но на вещах, которые текущие популярные бенчмарки не покрывают. Может создаваться ощущение, что никакого прогресса нет, но уже появилось 2-3 свежих бенчмарка (например тут или тут), где пятёрка отрывается от предшественников. Единственное, чего мне не хватило — это релиза __большой__ модели. GPT-5 +- такая же (по количеству активных параметров; total может быть больше, но не на порядок), как GPT-4o, ведь OpenAI должны масштабировать её на миллиард пользователей. В этом плане Anthropic круче: у них есть тяжеловес Opus, который настолько дорогой, что во многие бенчмарки его просто не добавляют. Люди мало им пользуются в Claude Code, ибо доллары улетают вмиг. Вот была бы какая-то GPT-5-Big... но может скоро и она появится? 🥲 ждём