Они продают доллар по 76 центов, Билли! В комментарии скинули страницу ставок на Polymarket, где люди ставят деньги на свои прогнозы. Конкретно эта страница — про то, какая модель «будет лучшей на конец августа». Вчера рынок этого прогноза перевернулся: до презентации GPT-5 вели OpenAI, а почти в самом начале её «акции» начали активно продавать и вперёд вырвался Google. Неужели презентация вышла настолько провальной? На самом деле нет — этот рынок никак не зависел от презентации. Важно прочитать, как именно будет определяться лучшая модель. Критерий такой: топ-1 на LMArena (где люди задают вопрос, получают два ответа от разных моделей и выбирают тот, который им понравился больше). Но есть одно «но»: оценка будет производиться без Style Control, то есть без поправки на стиль написания ответов. Я про это писал в канале раньше — уже давно поняли, что чем в среднем длиннее ответ и чем больше там разного форматирования, включая выделения жирным и списочки, тем больше он нравится голосующим. Поэтому аж 11 месяцев назад LMArena ввела этот самый Style Control. Долгое время он применялся в расчётах, но не являлся методом по умолчанию (не знаю почему, по моему логика там понятная). В мае, этого года, наконец, это изменилось: теперь модели штрафуют за графоманию и порывы делать списки с выделением. А поскольку рынок был сделан раньше, то и критерий оценки там «старый» — без этого штрафа. И по нему получается, что GPT-5 и Gemini 2.5 Pro делят первое место (1471 очко у Gemini против 1462 у модели OpenAI — не стат. значимая разница). Как же быть? В критериях написано, что в случае ничьей победит модель компании, чьё название (не модели — компании) идёт первым по алфавиту! Google > OpenAI. Таким образом, единственное что влияло на рынок — это результаты Арены, которые стали известны в момент презентации. Причём даже не среза по умолчанию (тут OpenAI на первом месте со стат. значимым отрывом, 1481 VS 1460), а устаревшего Without Style Control. Если бы на презентации объявили, что GPT-5 нашла лекарство от рака, или наоборот позвали бы ведущим стендап-комика, то ничего бы не изменилось — потому что решает только арена. По сути рынок превратился в предсказание «выпустит ли OpenAI обновление в следующие 23 дня, которое опередит только что представленную миру модель в оценке людьми без учёта смещающих факторов». Я думаю нет, так что прикупил голосов на Google 🤓
Они продают доллар по 76 центов, Билли! В комментарии скинули страницу ставок…
Из этого канала
- #2748На Reddit начался Ask-me-Anything с командой OpenAI (ссылка). Sama ворвался с…
На Reddit начался Ask-me-Anything с командой OpenAI (ссылка). Sama ворвался с двух ног сразу всех успокоить: — GPT-5 будет выглядеть «умнее», начиная сегодня.
- #2749"Такими темпами AGI до 2030 точно не видать (нижняя оценка Демисса Хасабиса,…
"Такими темпами AGI до 2030 точно не видать (нижняя оценка Демисса Хасабиса, CEO Google DeepMind) Вот кстати очень хороший анализ таймлайнов от Дваркеша, какие…
- #2750Так, ну пользователи на Reddit уже пожаловались, что GPT-5 не очень, а что…
Так, ну пользователи на Reddit уже пожаловались, что GPT-5 не очень, а что говорят сторонние бенчмарки? Ещё в первый вечер листая твиттер собрал большую часть…
- #2746"Быстрые утренние сводки с полей чата: — (часто) не работает поиск, модель…
"Быстрые утренние сводки с полей чата: — (часто) не работает поиск, модель делает запрос, но не получает результатов. Видимо, сломалась часть бэкенда.
- #2741Так, вышла GPT5 – спасибо JetBrains, партнеру OpenAI который подключил ее один…
Так, вышла GPT5 – спасибо JetBrains, партнеру OpenAI который подключил ее один из первых и в продуктах которого она будет доступна в течение часа по дефолту,…