Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы говорим, что модели рассуждают перед тем, как дать ответ. Но эти рассуждения ведь наверняка отличаются качественно? Можно 10 раз ходить по кругу, а можно сходу написать правильное решение, перепроверить его и выдать пользователю. Второе гораздо более предпочтительно — ведь это и быстрее, и дешевле (ведь за токены рассуждений мы тоже платим). Nousresearch провели мини-исследование на задачах по математике, знаниям и логическим загадкам и проанализировали длину цепочек рассуждений разных моделей. Если вкратце, то проприетарные модели выдают меньше токенов, чем открытые модели (хотя казалось бы им выгоднее делать наоборот, чтобы увеличивать выручку). Иногда это доходит до абсурда: на вопросы в духе «столица Австралии» или «1+1» модель Magistral-medium может потратить ТЫСЯЧУ токенов. Недавняя GPT-OSS-120b обходится в среднем всего 76, Claude тоже достаточно эффективны и не перешагивают 110 токенов, Grok 4 — 154, Gemini 2.5 Pro 426 токенов. На задачах по математике тренд схожий, Grok чуть получше, Claude чуть похуже, и весь опенсорс за ними — в самом конце также плетутся Magistral'и. И на логических задачах в целом картина не отличается. Выходит, разработчики проприетарных моделей уже нащупали какой-то набор техник для увеличения эффективности рассуждений в пересчёте на токен. А вот тем, кто выкладывает модели, ещё только предстоит это сделать — а нам узнать, в чём же секрет. В паре статей видел, что длина ответа по ходу RLVR-обучения растёт до какого-то порога, а потом начинает падать — модель «умнеет» и перестаёт писать много бессмысленных слов. Но не факт, что это единственная причина. На картинке — усреднённая относительная длина ответов моделей по всем типам протестированных промптов.
Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы…
Из этого канала
- #2779Но мне не совсем нравится этот анализ тем, что задач мало, и они во многом…
Но мне не совсем нравится этот анализ тем, что задач мало, и они во многом заезженные и типовые.
- #2780"Is AI writing any good? Есть такой писатель фэнтези, Mark Lawrence. Он…
"Is AI writing any good? Есть такой писатель фэнтези, Mark Lawrence. Он довольно популярен и время от времени организует различные активности.
- #2781MathArena Apex: Unconquered Final-Answer Problems Авторы MathArena домерили…
MathArena Apex: Unconquered Final-Answer Problems Авторы MathArena домерили качество GPT-5, GPT-OSS и других моделей на совсем свежих математических…
- #2777И у этого даже есть какое-никакое численное измерение. Sam Paech, автор…
И у этого даже есть какое-никакое численное измерение. Sam Paech, автор нескольких бенчмарков, связанных с креативным письмом LLM-ок, запустил свежий бенчмарк…
- #2776😄 и в чём он не прав
😄 и в чём он не прав