Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю… — @seeallochnaya

Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут). Авторы соизволили прогнать GPT 5.5 на high/xhigh (максимальная длина рассуждений и время работы). И Opus 4.7 до кучи тоже. Процитирую авторов: «GPT 5.5 xhigh значительно превосходит Claude Opus 4.7 xhigh по всем параметрам» 😏 Во-первых, появилась первая полностью решённая задача (из 200). Оба запуска GPT-5.5 решили её, при этом на двух разных языках, Python и C. Во-вторых, если брать не полностью решённые задачи, а те, где проходит 95% тестов (то есть выполнена почти вся функциональность), то разрыв ещё больше: GPT-5.5 xhigh может написать с нуля 13.5% программ, GPT 5.5 high 5%, Opus 4.7 xhigh 4.5%. Я не ожидал такой разницы. На второй картинке график доли задач, в которых проходит заданный процент тестов. Видно, как фронтир GPT-5.5 xhigh гораздо правее и выше, чем других моделей — то есть в целом модель закрывает сильно больше фичей в задачах. К сожалению, авторы так и не прогнали модели в Codex / Claude Code, не говоря уже про какой-то минимальный цикл работы до конца (аналог `/goal`), и я всё ещё ожидаю, что это повысит качество ещё больше. Что это значит для нас? Ждём к концу года агентов, которые будут выплёвывать по 100к строк кода на ваш промпт, и даже работать будет (на 95% 😂)

Из этого канала