1) метрики моделей (среднее гармоническое от ускорений на всех задачах) 2) изменение метрик в зависимости от бюджета. Видно, что прирост у маленьких моделек замедляется после $0.5, главный прирост происходит в самом начале. Условно даже с бюджетом в $0.4 можно неплохо так поускорять. Ещё интересный вывод: o4-mini / R1 достигают оценки за $0.1 лучше, чем Opus — за полный доллар. Вообще budget-constrained бенчмарки — вещь интересная, хоть и ограниченная с точки зрения применимости. Самые большие изменения всегда происходят на дорогих моделях. Но в целом хорошее направление, скажем, для студенченской работы.
1) метрики моделей (среднее гармоническое от ускорений на всех задачах) 2)…
Из этого канала
- #2763Маск решил судиться с Apple. По его мнению, Apple манипулирует рейтингами в App…
Маск решил судиться с Apple. По его мнению, Apple манипулирует рейтингами в App Store таким образом, что только приложения OpenAI могут занять в них первое…
- #2764Спасибо тем, кто жаловался, что 2 опции очень сложно: теперь мой ChatGPT…
Спасибо тем, кто жаловался, что 2 опции очень сложно: теперь мой ChatGPT выглядит вот так.
- #2765Epoch.AI опубликовали результаты GPT-5 на FrontierMath — датасете, про который…
Epoch.AI опубликовали результаты GPT-5 на FrontierMath — датасете, про который я писал вот тут (с маленькой драмой).
- #2760AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?…
AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs? (блог) Интересный бенчмарк, появившийся совсем недавно.
- #2759Система OpenAI смогла выиграть вторую золотую медаль, на этот раз на олимпиаде…
Система OpenAI смогла выиграть вторую золотую медаль, на этот раз на олимпиаде по информатике — 6-ое место из 330 живых участников — у системы тоже было 5…