Начинаем воскресенье с плохих новостей. LMArena решила добавить прозрачности и указать, какие именно модели OpenAI и с какими настройками они тестировали. Поскольку площадка позиционировала себя как ориентированную на сообщество, то я был достаточно уверен в том, что если они пишут о каких-то вещах без звёздочек, то стоит их интерпретировать в пользу простоты. Вот например GPT-5, которая заняла первое место неделю назад — это какая модель? Их же в API 2 штуки, chat и обычная, «рассуждающая». А если рассуждающая — то с каким уровнем рассуждений? Самым быстрым, средним или долгим? А ведь есть ещё параметр verbosity, который отвечает за длину ответа — важный фактор при оценке живыми людьми (оценка смещена в сторону длинных ответов). А с какими параметрами запускают Gemini 2.5 Pro, у которой можно указать thinking-бюджет? Так как на площадке долгое время существует по две версии моделей Anthropic (обычная и с 16k токенов рассуждений), то я предполагал «простой» ответ на вопрос выше: GPT-5 та же, что пользуются все, с параметрами по умолчанию. А оказалось — нет! Это GPT-5 high, которая доступна только по API, и, например, недоступна даже мне, Pro-подписчику, платящему $200 за ChatGPT (у нас количество рассуждений = medium). А GPT-5-Chat — модель, которая по умолчанию включена в ChatGPT — решили добавить попозже, и в итоге модель заняла лишь 5-ое место. Выше Grok-4, но ниже GPT-4o-версии, которая была в ChatGPT до этого, и тем более ниже Gemini 2.5 Pro. gpt-5-mini-high расположилась на 16 месте, gpt-5-nano-high — на 44м. === Думаю, что в этой непрозрачной исходной коммуникации есть малая, но ненулевая доля вины OpenAI (хотя во время презентации они не упоминали место на LMArena, в блогпосте тоже ничего — так что они это не выпячивали вперёд как доказательство «лучшести» модели). Надеюсь, что LMArena исправится и начнёт писать, что и как именно они скрывают за алиасами на доске результатов. Q: почему GPT-5-chat ниже gpt-4o-chat? A: скорее всего потому что OpenAI сделали её менее одобряющей и «теплой», и более объективной. Вероятно, людям это не нравится, но так как поправки на это на арене нет, то балл у 4o завышен Q: получается GPT-5 в ChatGPT тупая? A: она глупее GPT-5 Thinking, так что рекомендую использовать её почти всегда (если вы Plus-юзер). Q: а что с Gemini 2.5 Pro? A: у этой модели нет режима без рассуждений, любой ответ даже на самый простой вопрос вызывает цепочку рассуждений. Какой бюджет выставлен мы не знаем, но точно ясно, что без этого модель была бы ниже в ранжировании — может быть и где-то на уровне GPT-5-chat, но это не знаю, как проверить.
Начинаем воскресенье с плохих новостей. LMArena решила добавить прозрачности и…
Из этого канала
- #2776😄 и в чём он не прав
😄 и в чём он не прав
- #2777И у этого даже есть какое-никакое численное измерение. Sam Paech, автор…
И у этого даже есть какое-никакое численное измерение. Sam Paech, автор нескольких бенчмарков, связанных с креативным письмом LLM-ок, запустил свежий бенчмарк…
- #2778Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы…
Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы говорим, что модели рассуждают перед тем, как дать ответ.
- #2773На неделе Sama и несколько других директоров OpenAI провели ужин с репортёрами,…
На неделе Sama и несколько других директоров OpenAI провели ужин с репортёрами, где отвечали на их вопросы.
- #2772Обещал вам поделиться с теми случаями, где ChatGPT Operator / Agent мне как-то…
Обещал вам поделиться с теми случаями, где ChatGPT Operator / Agent мне как-то помогали.