1) метрики моделей (среднее гармоническое от ускорений на всех задачах) 2) изменение метрик в зависимости от бюджета. Видно, что прирост у маленьких моделек замедляется после $0.5, главный прирост происходит в самом начале. Условно даже с бюджетом в $0.4 можно неплохо так поускорять. Ещё интересный вывод: o4-mini / R1 достигают оценки за $0.1 лучше, чем Opus — за полный доллар. Вообще budget-constrained бенчмарки — вещь интересная, хоть и ограниченная с точки зрения применимости. Самые большие изменения всегда происходят на дорогих моделях. Но в целом хорошее направление, скажем, для студенченской работы.