Но мне не совсем нравится этот анализ тем, что задач мало, и они во многом заезженные и типовые. Чуть более полный анализ делает Artificial Analysis: они прогоняют у себя несколько публичных и популярных бенчмарков, по которым оценивают качество моделей, и считают длины ответов. Тут есть как минимум два очень свежих бенчмарка, появившихся с июля — почти наверняка модели не тренировались на них. Картинка схожая (сверху модели упорядочены по «интеллекту», снизу — по количеству потраченных токенов, от худшего к лучшему): Например, по картинке можно увидеть, что Claude 4 Sonnet тратит примерно 42 миллиона токенов на все ответы, а GPT-5 со «средней» длиной рассуждений (стоит по умолчанию) — 43. При этом средняя оценка первой по 8 бенчмаркам 59, а второй — 68.
Но мне не совсем нравится этот анализ тем, что задач мало, и они во многом…
Из этого канала
- #2780"Is AI writing any good? Есть такой писатель фэнтези, Mark Lawrence. Он…
"Is AI writing any good? Есть такой писатель фэнтези, Mark Lawrence. Он довольно популярен и время от времени организует различные активности.
- #2781MathArena Apex: Unconquered Final-Answer Problems Авторы MathArena домерили…
MathArena Apex: Unconquered Final-Answer Problems Авторы MathArena домерили качество GPT-5, GPT-OSS и других моделей на совсем свежих математических…
- #2782Qwen-Image-Edit: Image Editing with Higher Quality and Efficiency (статья по…
Qwen-Image-Edit: Image Editing with Higher Quality and Efficiency (статья по Qwen-Image, модели в основе) С пылу с жару модель от Alibaba, заточенная на…
- #2778Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы…
Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы говорим, что модели рассуждают перед тем, как дать ответ.
- #2777И у этого даже есть какое-никакое численное измерение. Sam Paech, автор…
И у этого даже есть какое-никакое численное измерение. Sam Paech, автор нескольких бенчмарков, связанных с креативным письмом LLM-ок, запустил свежий бенчмарк…