Первая категория бенчмарков — это на знания, насколько много мелких сложных фактов и нюансов зашито внутри модели. Предыдущий бенчмарк, на который я смотрел, был SimpleQA от OpenAI (и Verified-версия от Google). На нём самый высокий результат был у GPT-4.5, 62.5%. Качество на бенчмарке хорошо коррелировало с размером модели, больше модель + дольше учат = больше знаний, больше понимание нюансов. Отсюда логично, что у условной GPT-5 результат меньше, 55% (а у не-thinking версии вообще 46%, при том что у GPT-4o 44%). Поэтому когда появились слухи про результат Gemini на SimpleQA, 72%, — я был немного скептичен. Ну мало ли гугловцы взяли и доучили модель отдельно на самых частых фактах из этого бенчмарка. К счастью, менее чем неделю назад Artificial Analysis выпустили AA-Omniscience, схожий по духу бенчмарк, содержащий 6000 вопросов из 42 топиков. Его выводы не совсем идеально бились с теорией о корреляции знаний и размера, но в целом было неплохо: Grok-4 топ-1 с показателем 39%, на том же уровне GPT-5 (хотя я бы ожидал, что ниже), дальше G2.5 Pro и Opus (последний должен был бы быть где-то в топ-1), ну и весь опенсурс размером в триллион параметров на 10% ниже. И вот Gemini 3 Pro занимает первое место с отрывом, 53%, что скорее подтверждает теорию о том, что с точки зрения общего количества параметров это огромная модель. К сожалению, модель очень часто предпринимает попытки отвечать, не до конца понимая границы своих возможностей: в 89% ответов, где модель не дала правильный ответ, она не сказала «не знаю», а предприняла попытку угадать. Этот показатель называется «оценка галлюцинаций» (меньше — лучше), и для сравнения топовые модели там: — Claude 4.5 Haiku и 26% — Claude 4.5 Sonnet / 4.1 Opus 48% — GPT-5.1 51% — Grok 4 64% Однако за счёт большой доли правильных ответов по индексу, взвешивающему точность и галлюцинации модель в топ-1. It's a big model, Sir.
Первая категория бенчмарков — это на знания, насколько много мелких сложных…
Из этого канала
- #3112Вторая категория — агентские, с итерациями и обратной связью. Тут пока только…
Вторая категория — агентские, с итерациями и обратной связью. Тут пока только два бенчмарка, про один, Vending Bench, я писал вчера.
- #3113Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей…
Иииии OpenAI установили рекорд! По самому быстрому объявлению модели устаревшей — GPT-5.1-Codex, представленный 13-го ноября (6 дней назад), теперь уходит в…
- #3114Я: пишу про необходимость изменения собеседований в эпоху AI META: начинает…
Я: пишу про необходимость изменения собеседований в эпоху AI META: начинает шевелиться Тот-самый-азиат: Перевод: Слышал об собеседующем из ByteDance, который…
- #3110За первые сутки с момента релиза Gemini 3.0 меня поразило 3 вещи: — во-первых,…
За первые сутки с момента релиза Gemini 3.0 меня поразило 3 вещи: — во-первых, гугл смог СОБРАТЬСЯ и не запускать 5 версий превью, растягивая релизы и…
- #3108Первая картинка — результат отдельных запусков Вторая — результаты арены на 4…
Первая картинка — результат отдельных запусков Вторая — результаты арены на 4 модели