Первая категория бенчмарков — это на знания, насколько много мелких сложных… — @seeallochnaya

Первая категория бенчмарков — это на знания, насколько много мелких сложных фактов и нюансов зашито внутри модели. Предыдущий бенчмарк, на который я смотрел, был SimpleQA от OpenAI (и Verified-версия от Google). На нём самый высокий результат был у GPT-4.5, 62.5%. Качество на бенчмарке хорошо коррелировало с размером модели, больше модель + дольше учат = больше знаний, больше понимание нюансов. Отсюда логично, что у условной GPT-5 результат меньше, 55% (а у не-thinking версии вообще 46%, при том что у GPT-4o 44%). Поэтому когда появились слухи про результат Gemini на SimpleQA, 72%, — я был немного скептичен. Ну мало ли гугловцы взяли и доучили модель отдельно на самых частых фактах из этого бенчмарка. К счастью, менее чем неделю назад Artificial Analysis выпустили AA-Omniscience, схожий по духу бенчмарк, содержащий 6000 вопросов из 42 топиков. Его выводы не совсем идеально бились с теорией о корреляции знаний и размера, но в целом было неплохо: Grok-4 топ-1 с показателем 39%, на том же уровне GPT-5 (хотя я бы ожидал, что ниже), дальше G2.5 Pro и Opus (последний должен был бы быть где-то в топ-1), ну и весь опенсурс размером в триллион параметров на 10% ниже. И вот Gemini 3 Pro занимает первое место с отрывом, 53%, что скорее подтверждает теорию о том, что с точки зрения общего количества параметров это огромная модель. К сожалению, модель очень часто предпринимает попытки отвечать, не до конца понимая границы своих возможностей: в 89% ответов, где модель не дала правильный ответ, она не сказала «не знаю», а предприняла попытку угадать. Этот показатель называется «оценка галлюцинаций» (меньше — лучше), и для сравнения топовые модели там: — Claude 4.5 Haiku и 26% — Claude 4.5 Sonnet / 4.1 Opus 48% — GPT-5.1 51% — Grok 4 64% Однако за счёт большой доли правильных ответов по индексу, взвешивающему точность и галлюцинации модель в топ-1. It's a big model, Sir.

Из этого канала