Создатели SWE-bench представили новый бенчмарк по программированию, на котором абсолютно все современные модели выбивают ровно 0% Он называется ProgramBench, и суть его проста: агент получает только скомпилированный исполняемый бинарник и документацию, и его задача – спроектировать код, который при сборке будет полностью соответствовать поведению исходного файла (без доступа к Интернету). При этом агент должен самостоятельно определиться с архитектурой и выбрать структуру проекта. Собственно, здесь сложности и начинаются: LLM хорошо умеют писать плоский код в одном файле, а вот с многофайловыми проектами, где нужна низкоуровневая логика, работают плохо. Итог: даже результат Claude Opus 4.7 и GPT-5.4 – это полный ноль. Кажется, у нас новый претендент на звание самого интересного бенчмарка. https://programbench.com/