Близится конец года, а это значит что помимо его итогов многие подводят результаты ставок и споров 😊 Вот например на Polymarket есть рынок «какая компания будет иметь лучшую кодинг-модель по окончанию 2025-го?», и там, возможно, внезапно для некоторых, безоговорочным лидером является OpenAI (95%). Уверен, в канале найдется много комментаторов, которые уже давно похоронили компанию, надели майки «Гугл вперед», и которые сейчас удивились 🙂 Как и в случае моего августовского поста, причина — в критерии, который используется для разрешения. В этом случае используется подраздел coding бенчмарка LiveBench, который как раз недавно (в ноябре) обновляли. GPT-5.1 Codex Max выбивает там 81.38, а Claude 4.5 Opus Thinking High Effort — 79.65%. Скорее всего тут разница даже не стат. значима, но на рынке это не учитывается. Однако даже если брать другой бенчмарк, то я бы смотрел в сторону SWE-ReBench, где модели гоняют на самых свежих задачах, гарантированно не присутствовавших с тренировочных данных. gpt-5.2-2025-12-11-medium там слегка лидирует над моделями Anthropic (хоть на первом месте и Opus, но запущенный через Claude Code). Эх, ещё бы ребята на `xhigh` расщедрились бы... Но что куда интереснее — это ретроспективная оценка GPT-5, вышедшей в августе. Помните перед релизом были новости, что по внутренним бенчмаркам компании она сопоставима с Opus/Sonnet, и что OpenAI «догонят» конкурентов? Получается, это было правдой — сейчас, с набором статистики и большего количества задач модель всё равно держится в топе, и обгоняет Gemini 3 Pro, и Sonnet 4 (а вот от 4.5, вышедшего на полтора месяца позже, слегка отстаёт).
Близится конец года, а это значит что помимо его итогов многие подводят…
Из этого канала
- #3216Пока пишу следующий пост наткнулся на такое — старая новая фича ChatGPT, где в…
Пока пишу следующий пост наткнулся на такое — старая новая фича ChatGPT, где в ответе выделяется несколько словосочетаний, при нажатии на которые справа…
- #3217Свежая аналитика Similarweb по доле разных LLM-продуктов в веб-трафике. В…
Свежая аналитика Similarweb по доле разных LLM-продуктов в веб-трафике. В начале года ChatGPT был 87.2%, теперь — 68.0%.
- #3219Дракон удар! Автор лучшей подписи к видео получит good laugh.
Дракон удар! Автор лучшей подписи к видео получит good laugh.
- #3212Дошли руки почитать статью годовой давности, Cut Your Losses in…
Дошли руки почитать статью годовой давности, Cut Your Losses in Large-Vocabulary Language Models.
- #3211Nvidia покупает Groq. Тот самый, который делает чипы для быстрого инференса…
Nvidia покупает Groq. Тот самый, который делает чипы для быстрого инференса LLM. - Это крупнейшая покупка Nvidia за всю историю - $20 млрд.