😡 нет. К нашему счастью, с авторами связался небезызвестный в узких кругах Nicholas Carlini и попросил авторов прогнать модель, но используя Claude Code — официальный инструмент, под который заточены модели и с которым, логично предположить, модель ко-тренировалась — а значит лучше знает ограничения и возможности инструментов. Claude Opus 4.5 вырос с 42% до 78%, а вот например Opus 4.1 (как и Sonnet 4) наоборот стал похуже. Sonnet 4.5 прибавил с 44% до 62% — всё ещё меньше, чем Opus, но тоже солидно. Но после этого авторы начали смотреть на ошибки, и обнаружили, что, во-первых, у них были проблемы в коде, из-за чего несколько задач не засчитывалось, а во-вторых Opus дал решения, которые в целом правильные, но не были предусмотрены изначально при подготовке датасета. Этот опыт подтверждает важность ручной проверки нерешённых задач на «последней миле» бенчмарков. Эти задачи часто не решаются из-за ошибок в оценке, а не из-за того, что агенты действительно неспособны их решить. Многие из этих ошибок было трудно предвидеть до того, как сильные агенты на совсем свежих моделях попытались выполнить задачи. Итого Opus 4.5 выбивает 95%, по сути закрывая бенчмарк. Хотя казалось бы вчера топовый скор был 55%. Источник истории === Отдельный вопрос: почему оценка так сильно выросла? Мог ли Opus / Sonnet видеть эти задачи до, и потому выстрелить? Я думаю, что этот вопрос иррелевантен мысли поста. Даже если модели тренировались на конкретно этих примерах — мы видим, что какие-то имплементации агента ухудшают качество почти в два раза. То есть отдельными инструментами просто не получается использовать модель на полную даже там, где она знает решение. И всё же — почему модели стали лучше? Думаю потому, что задача установки репозитория и запуска скриптов — очень важная часть автоматизации цикла обучения рассуждениям, особенно в программировании, на котором Anthropic специализируются. Вот в недавней работе DeepSeek писали, что делали также — брали модель V3.2 и давали задачу запустить тесты, собрав для этого окружение. Предположу, что Anthropic для дальнейшего масштабирования просто хорошо натренировались на этом типе задач: вот репозиторий, сделай из него окружение для тренировки.
😡 нет. К нашему счастью, с авторами связался небезызвестный в узких кругах…
Из этого канала
- #3174Google выложили отдельный блогпост о том, как хороша их модель в обработке…
Google выложили отдельный блогпост о том, как хороша их модель в обработке изображений и видео.
- #3175"Посмотрел получасовое интервью с CEO Anthropic Dario Amodei, в котором он на…
"Посмотрел получасовое интервью с CEO Anthropic Dario Amodei, в котором он на протяжении получаса пытается не называть компанию OpenAI по их названию, заменяя…
- #3176Ещё из этого интервью услышал идиому hands down, попросил ChatGPT объяснить…
Ещё из этого интервью услышал идиому hands down, попросил ChatGPT объяснить этимологию.
- #3172Многие агентские бенчмарки пытаются унифицировать код для работы с разными…
Многие агентские бенчмарки пытаются унифицировать код для работы с разными моделями: используют одни и те же наборы инструментов, промпты, одинаково управляют…
- #3171Вчера увидел пост «После релиза Gemini 3 у OpenAI начал падать трафик! Поэтому…
Вчера увидел пост «После релиза Gemini 3 у OpenAI начал падать трафик! Поэтому и бьют код красный! Всё кончено, гугл победил».