Так, ну пользователи на Reddit уже пожаловались, что GPT-5 не очень, а что… — @seeallochnaya

Так, ну пользователи на Reddit уже пожаловались, что GPT-5 не очень, а что говорят сторонние бенчмарки? Ещё в первый вечер листая твиттер собрал большую часть списка ниже, но было лень оформлять — вот, дошли руки. Разбил всё на 2 блока, это бенчмарки бизнесов, делающих продукты на AI (и потому имеющие внутренние способы оценки прогресса) и чисто бенчмарки, которые сравнивают модели на абстрактных задачах, которые не факт, что экономически полезны. Бизнес-задачи: 1. Улучшение на 15-38% сверке банковских выписок/извлечении вендора, сравнение только с GPT-4o, без конкурентов (ссылка) 2. Ревью PR & поиск ошибок & исправления, много метрик описывают, но одна из впечатляющи — 77.3% pass rate против 26.7% у Sonnet 4 (o3: 44%) (ссылка) 3. end-2-end решение проблем на программирование на внутреннем наборе задач Cognition (Devin), лучше Sonnet 4 (в планировании — на 7%) (ссылка) 4. Cascade SWE-Bench, внутренний бенчмарк Windsurf, на ~3-4% лучше Sonnet 4 в pass@1, и на ~12% в pass@5 (ссылка) 5. Улучшение на 5% в среднем и на 9% в длинных документах на задаче извлечения бизнес-сущностей (ссылка) 6. 88% на задаче работы с Excel-файлами, Gemini и Sonnet 4 78% (ссылка) 7. 86% на заполнении страховых форм, Gemini 78% (ссылка) 8. Улучшение на 20-100% против Claude на внутренних кодинг-задачах JetBrains на Java/Kotlin, Go, Rust (включая внутренние репозитории, которых нет в интернете). Деталей нет, зато поделился кто — Евгений Патеха! Олды тут? (ссылка) 9. Поиск финансовых инсайтов в документах, 83% против 79% у o3, 65% у Gemini, 62% у Claude (ссылка) Бенчмарки: 1. 66% на Visual Physics Comprehension, Gemini 48%, Claude 39% (ссылка) 2. Существенный прирост на IFScale, бенчмарке составления ответа с сотнями ограничений/инструкций, 90%+ при 500+ инструкциях в контексте, Gemini 2.5 70%, Claude нет (ссылка) 3. Топ-1 с отрывом на очень свежем бенчмарке на длинный контекст (документы на ~100k токенов) от AA, 76% против 68% Grok 4, 66% Gemini / Claude. Бенчмарку буквально 5 дней (ссылка) 4. Топ-1 с маленьким отрывом на Confabulations/Hallucinations on Provided Texts benchmark, 10.3% против 12.4% у Gemini и 13.2 у Sonnet (ссылка) 5. Топ-1 в бенчмарке Рината, составленному по бизнес-задачам разных доменов, 79.4% — и это medium reasoning effort, даже не high. Бенчмарк снова устарел... (ссылка). Gemini 74%, Claude 3.7 71%. 6. Какой-то абсолютный разнос в livecodebenchpro-live, куда попадают относительно свежие задачи с Codeforces + другие свежие. У модели Elo-рейтинг 2296, у Gemini 1585. Но тут надо ждать пока появятся новые соревнования и задачи с них прососутся в бенчмарк. (ссылка) 7. Топ-1 в WeirdML-v2 (появился совсем недавно, добавилось 13 новых задач), 56.3% против 50% у Gemini и 45.3% Claude 4 Sonnet. (ссылка) А ещё стоит помнить, что GPT-5 очень дешева (дешевле o3 и тем более моделей Anthropic!), так ещё и кэширование теперь даёт 90% скидку вместо 50%. It's a good model sir. === Означает ли это, что модель лучше во всём и везде? Конечно, нет. Я думаю, что количество вопросов/доменов/задач, где GPT-5 хуже o3 / 4.1, очень мало, но не равно нулю. Даже на простых промптах может казаться, что GPT-5 якобы деградировала. Например, если GPT-4o давала хороший ответ в 30% случаев, а GPT-5 — в 60% (те же 30% промптов + какая-то группа новых), то как думаете, при сравнении ответов как часто вам будет казаться, что ответ первой лучше? В 35% случаев... больше трети ответов! И ещё одно задание по математике: сколько жалоб мы увидим, если от 700M пользователей у 1% ухудшился опыт, и 1% из них решил написать что-то про это 😀

Из этого канала