😡 нет. К нашему счастью, с авторами связался небезызвестный в узких кругах… — @seeallochnaya

😡 нет. К нашему счастью, с авторами связался небезызвестный в узких кругах Nicholas Carlini и попросил авторов прогнать модель, но используя Claude Code — официальный инструмент, под который заточены модели и с которым, логично предположить, модель ко-тренировалась — а значит лучше знает ограничения и возможности инструментов. Claude Opus 4.5 вырос с 42% до 78%, а вот например Opus 4.1 (как и Sonnet 4) наоборот стал похуже. Sonnet 4.5 прибавил с 44% до 62% — всё ещё меньше, чем Opus, но тоже солидно. Но после этого авторы начали смотреть на ошибки, и обнаружили, что, во-первых, у них были проблемы в коде, из-за чего несколько задач не засчитывалось, а во-вторых Opus дал решения, которые в целом правильные, но не были предусмотрены изначально при подготовке датасета. Этот опыт подтверждает важность ручной проверки нерешённых задач на «последней миле» бенчмарков. Эти задачи часто не решаются из-за ошибок в оценке, а не из-за того, что агенты действительно неспособны их решить. Многие из этих ошибок было трудно предвидеть до того, как сильные агенты на совсем свежих моделях попытались выполнить задачи. Итого Opus 4.5 выбивает 95%, по сути закрывая бенчмарк. Хотя казалось бы вчера топовый скор был 55%. Источник истории === Отдельный вопрос: почему оценка так сильно выросла? Мог ли Opus / Sonnet видеть эти задачи до, и потому выстрелить? Я думаю, что этот вопрос иррелевантен мысли поста. Даже если модели тренировались на конкретно этих примерах — мы видим, что какие-то имплементации агента ухудшают качество почти в два раза. То есть отдельными инструментами просто не получается использовать модель на полную даже там, где она знает решение. И всё же — почему модели стали лучше? Думаю потому, что задача установки репозитория и запуска скриптов — очень важная часть автоматизации цикла обучения рассуждениям, особенно в программировании, на котором Anthropic специализируются. Вот в недавней работе DeepSeek писали, что делали также — брали модель V3.2 и давали задачу запустить тесты, собрав для этого окружение. Предположу, что Anthropic для дальнейшего масштабирования просто хорошо натренировались на этом типе задач: вот репозиторий, сделай из него окружение для тренировки.

Из этого канала