Близится конец года, а это значит что помимо его итогов многие подводят… — @seeallochnaya

Близится конец года, а это значит что помимо его итогов многие подводят результаты ставок и споров 😊 Вот например на Polymarket есть рынок «какая компания будет иметь лучшую кодинг-модель по окончанию 2025-го?», и там, возможно, внезапно для некоторых, безоговорочным лидером является OpenAI (95%). Уверен, в канале найдется много комментаторов, которые уже давно похоронили компанию, надели майки «Гугл вперед», и которые сейчас удивились 🙂 Как и в случае моего августовского поста, причина — в критерии, который используется для разрешения. В этом случае используется подраздел coding бенчмарка LiveBench, который как раз недавно (в ноябре) обновляли. GPT-5.1 Codex Max выбивает там 81.38, а Claude 4.5 Opus Thinking High Effort — 79.65%. Скорее всего тут разница даже не стат. значима, но на рынке это не учитывается. Однако даже если брать другой бенчмарк, то я бы смотрел в сторону SWE-ReBench, где модели гоняют на самых свежих задачах, гарантированно не присутствовавших с тренировочных данных. gpt-5.2-2025-12-11-medium там слегка лидирует над моделями Anthropic (хоть на первом месте и Opus, но запущенный через Claude Code). Эх, ещё бы ребята на `xhigh` расщедрились бы... Но что куда интереснее — это ретроспективная оценка GPT-5, вышедшей в августе. Помните перед релизом были новости, что по внутренним бенчмаркам компании она сопоставима с Opus/Sonnet, и что OpenAI «догонят» конкурентов? Получается, это было правдой — сейчас, с набором статистики и большего количества задач модель всё равно держится в топе, и обгоняет Gemini 3 Pro, и Sonnet 4 (а вот от 4.5, вышедшего на полтора месяца позже, слегка отстаёт).

Из этого канала