На помощь пришёл SWE-ReBench от команды исследователей из Nebius. Они тоже видят проблему в SWE-Bench (что он статичен и заточен на 12 очень популярных python-репозиториев), и потому полу-автоматизировали пайплайн сбора задач и прогоняют модели на них каждый месяц. Хоть сами репозитории наверное и были в тренировочных данных моделей, решения почти наверняка не попадались LLM — их просто не существовало в момент обучения, они были опубликованы позже. И что мы видим? Qwen-2.5-Coder-32B одна из худших моделей на лидерборде, с самой высокой долей полностью решённых задач в 7.5% (в мае, до этого колыхался на 4%). Зато в том же мае Claude 4 Sonnet решала 56% новых задач, DeepSeek V3 — 38%. Банально если бы соревнование проводилось в режиме, в котором ресурсы не ограничены (или можно использовать API проприетарных моделей) — получился бы пруф от обратного, что оказывается автономные агенты уже решают чуть ли не половину всех проблем на гитхабе (без участия человека). Но мы так конечно говорить не будем :) А в остальном бенчмарк очень похож на SWE-Bench. Правда, ребята намеренно не используют никаких продвинутых агентов (читай скаффолдингов), поэтому оценка качества тут скорее прокси снизу — можно прибавить условные 5-7%, если заменить на кого-то из топа SWE-Bench.