Многие агентские бенчмарки пытаются унифицировать код для работы с разными… — @seeallochnaya

Многие агентские бенчмарки пытаются унифицировать код для работы с разными моделями: используют одни и те же наборы инструментов, промпты, одинаково управляют памятью (сообщениями в контексте). С учётом того, что все ведущие компании выпустили свои продукты (Codex / Claude Code / Gemini CLI), логично задаться вопросом: насколько большой прирост можно получить от использования нативного для каждой модели интерфейса? К сожалению, ответа на вопрос пока нет (хотя я тыкаю палкой авторов ReBench, обещали скоро сделать для их задачи), зато есть вот такая история. Исследователи из Princeton University запустили HAL, Holistic Agent Leaderboard, в котором поддерживают несколько бенчмарков и замеряют на них модели; один из них — CORE-Bench, тестирующий агентов на предмет научной воспроизводимости результатов. Для каждой из 290 задач по 70 статьям есть код, который воспроизводит большую часть статьи и выводов из неё; 1 задача = 1 вопрос, на который можно ответить, если, собственно, повторить за авторами эксперименты. Всего 3 уровня: — Easy, где код воспроизведения уже был запущен, все результаты сохранены, и нужно найти ответ в этих результатах (иногда по тексту, иногда по картинкам) — Medium, где для агента подготовлен Dockerfile (файл установки окружения, в котором запускается воспроизведение статьи), но запуск и поиск результатов нужно делать самому — Hard, где нет Dockerfile, и агент должен сам разобраться, как запустить код, при этом часто возникают проблемы с версиями библиотек (например, код требовал старую версию 0.6, а ставилась свежая 0.14.4) На всякий случай замечу, что сам код воспроизведения статей, как в PaperBench, писать не нужно, он уже готов — на одном из двух языков, Python или старый R. Олды тут? Получается что основная работа агента — это разобраться, как запускать, и локализовать ответ на вопрос, возможно, сверяясь с кодом. Примеры вопросов: — Сообщите AUC предложенной модели на таком-то датасете — Найди выборку с более низким уровнем убийств на 100 тыс. человек в 2000 году и p-value из прогнозируемого распределения доверия полиции (эти цифры в двух разных графиках, которые нужно сопоставить) — Сообщите долю правильных ответов нейросети после 10-й эпохи обучения (тут просто поиск в логах) Сейчас задачи не кажутся такими сложными — конечно, ведь бенчмарк чуть старше года 👨‍🦳 Ну и вот, авторы замеряли модели: — Claude Sonnet 4 = 33% — Claude Opus 4.1 = 51% 💪 — Claude Sonnet 4.5 = 44% — совсем свежий и мощный Claude Opus 4.5... = 42% Это что получается, никаких улучшений моделей нет аж с августа, когда вышел Opus 4.1? Так Anthropic ещё и специально ухудшили его в версии 4.5, потому он и стал дешевле?

Из этого канала