Но мне не совсем нравится этот анализ тем, что задач мало, и они во многом заезженные и типовые. Чуть более полный анализ делает Artificial Analysis: они прогоняют у себя несколько публичных и популярных бенчмарков, по которым оценивают качество моделей, и считают длины ответов. Тут есть как минимум два очень свежих бенчмарка, появившихся с июля — почти наверняка модели не тренировались на них. Картинка схожая (сверху модели упорядочены по «интеллекту», снизу — по количеству потраченных токенов, от худшего к лучшему): Например, по картинке можно увидеть, что Claude 4 Sonnet тратит примерно 42 миллиона токенов на все ответы, а GPT-5 со «средней» длиной рассуждений (стоит по умолчанию) — 43. При этом средняя оценка первой по 8 бенчмаркам 59, а второй — 68.