Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы… — @seeallochnaya

Measuring Thinking Efficiency in Reasoning Models: The Missing Benchmark Вот мы говорим, что модели рассуждают перед тем, как дать ответ. Но эти рассуждения ведь наверняка отличаются качественно? Можно 10 раз ходить по кругу, а можно сходу написать правильное решение, перепроверить его и выдать пользователю. Второе гораздо более предпочтительно — ведь это и быстрее, и дешевле (ведь за токены рассуждений мы тоже платим). Nousresearch провели мини-исследование на задачах по математике, знаниям и логическим загадкам и проанализировали длину цепочек рассуждений разных моделей. Если вкратце, то проприетарные модели выдают меньше токенов, чем открытые модели (хотя казалось бы им выгоднее делать наоборот, чтобы увеличивать выручку). Иногда это доходит до абсурда: на вопросы в духе «столица Австралии» или «1+1» модель Magistral-medium может потратить ТЫСЯЧУ токенов. Недавняя GPT-OSS-120b обходится в среднем всего 76, Claude тоже достаточно эффективны и не перешагивают 110 токенов, Grok 4 — 154, Gemini 2.5 Pro 426 токенов. На задачах по математике тренд схожий, Grok чуть получше, Claude чуть похуже, и весь опенсорс за ними — в самом конце также плетутся Magistral'и. И на логических задачах в целом картина не отличается. Выходит, разработчики проприетарных моделей уже нащупали какой-то набор техник для увеличения эффективности рассуждений в пересчёте на токен. А вот тем, кто выкладывает модели, ещё только предстоит это сделать — а нам узнать, в чём же секрет. В паре статей видел, что длина ответа по ходу RLVR-обучения растёт до какого-то порога, а потом начинает падать — модель «умнеет» и перестаёт писать много бессмысленных слов. Но не факт, что это единственная причина. На картинке — усреднённая относительная длина ответов моделей по всем типам протестированных промптов.

Из этого канала