Так, ну пользователи на Reddit уже пожаловались, что GPT-5 не очень, а что говорят сторонние бенчмарки? Ещё в первый вечер листая твиттер собрал большую часть списка ниже, но было лень оформлять — вот, дошли руки. Разбил всё на 2 блока, это бенчмарки бизнесов, делающих продукты на AI (и потому имеющие внутренние способы оценки прогресса) и чисто бенчмарки, которые сравнивают модели на абстрактных задачах, которые не факт, что экономически полезны. Бизнес-задачи: 1. Улучшение на 15-38% сверке банковских выписок/извлечении вендора, сравнение только с GPT-4o, без конкурентов (ссылка) 2. Ревью PR & поиск ошибок & исправления, много метрик описывают, но одна из впечатляющи — 77.3% pass rate против 26.7% у Sonnet 4 (o3: 44%) (ссылка) 3. end-2-end решение проблем на программирование на внутреннем наборе задач Cognition (Devin), лучше Sonnet 4 (в планировании — на 7%) (ссылка) 4. Cascade SWE-Bench, внутренний бенчмарк Windsurf, на ~3-4% лучше Sonnet 4 в pass@1, и на ~12% в pass@5 (ссылка) 5. Улучшение на 5% в среднем и на 9% в длинных документах на задаче извлечения бизнес-сущностей (ссылка) 6. 88% на задаче работы с Excel-файлами, Gemini и Sonnet 4 78% (ссылка) 7. 86% на заполнении страховых форм, Gemini 78% (ссылка) 8. Улучшение на 20-100% против Claude на внутренних кодинг-задачах JetBrains на Java/Kotlin, Go, Rust (включая внутренние репозитории, которых нет в интернете). Деталей нет, зато поделился кто — Евгений Патеха! Олды тут? (ссылка) 9. Поиск финансовых инсайтов в документах, 83% против 79% у o3, 65% у Gemini, 62% у Claude (ссылка) Бенчмарки: 1. 66% на Visual Physics Comprehension, Gemini 48%, Claude 39% (ссылка) 2. Существенный прирост на IFScale, бенчмарке составления ответа с сотнями ограничений/инструкций, 90%+ при 500+ инструкциях в контексте, Gemini 2.5 70%, Claude нет (ссылка) 3. Топ-1 с отрывом на очень свежем бенчмарке на длинный контекст (документы на ~100k токенов) от AA, 76% против 68% Grok 4, 66% Gemini / Claude. Бенчмарку буквально 5 дней (ссылка) 4. Топ-1 с маленьким отрывом на Confabulations/Hallucinations on Provided Texts benchmark, 10.3% против 12.4% у Gemini и 13.2 у Sonnet (ссылка) 5. Топ-1 в бенчмарке Рината, составленному по бизнес-задачам разных доменов, 79.4% — и это medium reasoning effort, даже не high. Бенчмарк снова устарел... (ссылка). Gemini 74%, Claude 3.7 71%. 6. Какой-то абсолютный разнос в livecodebenchpro-live, куда попадают относительно свежие задачи с Codeforces + другие свежие. У модели Elo-рейтинг 2296, у Gemini 1585. Но тут надо ждать пока появятся новые соревнования и задачи с них прососутся в бенчмарк. (ссылка) 7. Топ-1 в WeirdML-v2 (появился совсем недавно, добавилось 13 новых задач), 56.3% против 50% у Gemini и 45.3% Claude 4 Sonnet. (ссылка) А ещё стоит помнить, что GPT-5 очень дешева (дешевле o3 и тем более моделей Anthropic!), так ещё и кэширование теперь даёт 90% скидку вместо 50%. It's a good model sir. === Означает ли это, что модель лучше во всём и везде? Конечно, нет. Я думаю, что количество вопросов/доменов/задач, где GPT-5 хуже o3 / 4.1, очень мало, но не равно нулю. Даже на простых промптах может казаться, что GPT-5 якобы деградировала. Например, если GPT-4o давала хороший ответ в 30% случаев, а GPT-5 — в 60% (те же 30% промптов + какая-то группа новых), то как думаете, при сравнении ответов как часто вам будет казаться, что ответ первой лучше? В 35% случаев... больше трети ответов! И ещё одно задание по математике: сколько жалоб мы увидим, если от 700M пользователей у 1% ухудшился опыт, и 1% из них решил написать что-то про это 😀
Так, ну пользователи на Reddit уже пожаловались, что GPT-5 не очень, а что…
Из этого канала
- #2751Один человек в твиттере сделал такой сайт: https://gptblindvoting.vercel.app/…
Один человек в твиттере сделал такой сайт: https://gptblindvoting.vercel.app/ Тут вы можете получить 10-30 пар ответов GPT-4o и GPT-5 на уже заготовленные…
- #2752Ну вот теперь заживём: OpenAI только что добавили фичу, показывающую, что за…
Ну вот теперь заживём: OpenAI только что добавили фичу, показывающую, что за модель была использована для ответа.
- #2753Маленький апдейт по этому опросу. Спасибо всем, кто поучаствовал и скинул…
Маленький апдейт по этому опросу. Спасибо всем, кто поучаствовал и скинул картинку в комментарии — всего результатом поделились 44 человека: — 538 голосов за…
- #2749"Такими темпами AGI до 2030 точно не видать (нижняя оценка Демисса Хасабиса,…
"Такими темпами AGI до 2030 точно не видать (нижняя оценка Демисса Хасабиса, CEO Google DeepMind) Вот кстати очень хороший анализ таймлайнов от Дваркеша, какие…
- #2748На Reddit начался Ask-me-Anything с командой OpenAI (ссылка). Sama ворвался с…
На Reddit начался Ask-me-Anything с командой OpenAI (ссылка). Sama ворвался с двух ног сразу всех успокоить: — GPT-5 будет выглядеть «умнее», начиная сегодня.