Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть вопросы к тому, как авторы замерили бейзлайн. Они использовали своего минималистичного агента из одной из прошлых работ, mini-SWE-agent. Почти наверняка если замерять модели компаний в нативных для них Codex и Claude Code, или хотя бы в просто более умных скаффолдах, минимально поддерживающих хотя бы сжатие контекста (задача-то тут немаленькая, агенту работать долго) — модели оторвались бы от 0%, и в целом доля решенных тестов была бы выше. Например, вот на первой картинке статистика воспроизведения супер-популярной SQLite. На втором месте Haiku, обходящая Opus 4.6. На третьем — GPT-5 mini, закрывшая на 18% больше тестов, чем Sonnet 4.6. Можно сказать, что это всего лишь одна задача, да, но ведь в этой задаче сотни тестов. Вероятность того, что Opus ожидаемо получает настолько экстремально низкий бал крайне мала. Или авторы где-то налажали в инфраструктуре/параметрах, или что-то ещё. Я ожидаю, что в ближайшую неделю какая-то компания сделает прогон Codex / Claude Code / Pi и отчитается о ненулевом результате. Конечно, 80% бенчмарка это не решит, но в результат 10-15% я могу поверить (и куда больше — в almost solved, где порог пройденных тестов 95%, а не 100%). На второй картинке твиттерянин прогнал одну из задач на разных настройках Codex и на GPT-5.4/5.5, и видно, что результат авторов это буквально самый худший с большим запасом. На третьей картинке он же прогнал 5 раз другую задачу в Pi (аналог Codex/Claude Code), и все 5 раз оценка была выше 90%, и 2 раза — 100%. Ждем, пока кто-то расчехлит тысяч десять долларов на нормальные прогоны. Ну и будем рады видеть в релизных блогпостах будущих моделей (от Anthropic новую модель ожидаем прямо сегодня кстати 👀)
Бенчмарк вышел огненным, будет очень интересно следить за прогрессом, но есть…
Из этого канала
- #3608Один из интересных графиков в статье с анализом поведениям моделей авторами…
Один из интересных графиков в статье с анализом поведениям моделей авторами статей. GPT думает гораздо больше перед тем, как начать писать какой-либо код.
- #3609МАСК — ВСЁ! Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro…
МАСК — ВСЁ! Anthropic объявили о том, что они удвоят 5-часовые лимиты на Pro Max Team и других тарифах.
- #3610Как ProgramBench помогает понять, куда движется индустрия через год-полтора. В…
Как ProgramBench помогает понять, куда движется индустрия через год-полтора. В комментариях под постом про бенчмарк получилось обсуждение, приведу пару цитат…
- #3604Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на…
Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на который мы будем смотреть ближайший год+.
- #3602Увидел интересный сайт hnup.date/hn-sota — кто-то регулярно ежедневно гоняет…
Увидел интересный сайт hnup.date/hn-sota — кто-то регулярно ежедневно гоняет автоматический анализ комментариев на Hackernews, чтобы подсчитать сентимент в…