И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле больше, но интересны эти) модели в их нативных обёртках, Claude Code и Codex, и Terminus 2. В случае обоих моделей количество решённых от-и-до задач нормально так отличается — для GPT-5.5 это вообще удвоило оценку (в статье указаны доверительные интервалы, и по ним выходит, что это стат. значимая разница). 😭 тем временем авторы ProgramBench до сих пор запускают mini-swe-agent и отказываются пробовать родные харнессы. Вообще не понимаю их логики, как можно было ни разу не прогнать хотя бы часть задач, чтобы убедиться, что нет большой разницы (она почти наверняка есть, но они-то думают, что нет).