Они продают доллар по 76 центов, Билли! В комментарии скинули страницу ставок… — @seeallochnaya

Они продают доллар по 76 центов, Билли! В комментарии скинули страницу ставок на Polymarket, где люди ставят деньги на свои прогнозы. Конкретно эта страница — про то, какая модель «будет лучшей на конец августа». Вчера рынок этого прогноза перевернулся: до презентации GPT-5 вели OpenAI, а почти в самом начале её «акции» начали активно продавать и вперёд вырвался Google. Неужели презентация вышла настолько провальной? На самом деле нет — этот рынок никак не зависел от презентации. Важно прочитать, как именно будет определяться лучшая модель. Критерий такой: топ-1 на LMArena (где люди задают вопрос, получают два ответа от разных моделей и выбирают тот, который им понравился больше). Но есть одно «но»: оценка будет производиться без Style Control, то есть без поправки на стиль написания ответов. Я про это писал в канале раньше — уже давно поняли, что чем в среднем длиннее ответ и чем больше там разного форматирования, включая выделения жирным и списочки, тем больше он нравится голосующим. Поэтому аж 11 месяцев назад LMArena ввела этот самый Style Control. Долгое время он применялся в расчётах, но не являлся методом по умолчанию (не знаю почему, по моему логика там понятная). В мае, этого года, наконец, это изменилось: теперь модели штрафуют за графоманию и порывы делать списки с выделением. А поскольку рынок был сделан раньше, то и критерий оценки там «старый» — без этого штрафа. И по нему получается, что GPT-5 и Gemini 2.5 Pro делят первое место (1471 очко у Gemini против 1462 у модели OpenAI — не стат. значимая разница). Как же быть? В критериях написано, что в случае ничьей победит модель компании, чьё название (не модели — компании) идёт первым по алфавиту! Google > OpenAI. Таким образом, единственное что влияло на рынок — это результаты Арены, которые стали известны в момент презентации. Причём даже не среза по умолчанию (тут OpenAI на первом месте со стат. значимым отрывом, 1481 VS 1460), а устаревшего Without Style Control. Если бы на презентации объявили, что GPT-5 нашла лекарство от рака, или наоборот позвали бы ведущим стендап-комика, то ничего бы не изменилось — потому что решает только арена. По сути рынок превратился в предсказание «выпустит ли OpenAI обновление в следующие 23 дня, которое опередит только что представленную миру модель в оценке людьми без учёта смещающих факторов». Я думаю нет, так что прикупил голосов на Google 🤓

Из этого канала