В твиттере наткнулся на очень интересную статистику по длительности выполнения задач на SWE-Bench Verified и качеству разных моделей в этих срезах. Оказывается для каждой из 500 задач есть аннотация её сложности, вычисленной по примерной длительности выполнения. Оценка сделана вручную, но по очень простым критериям (отсюда), например, всё что больше 100 строк — в последнюю категорию. Над более объёмными задачами уже работают, в SWE-Bench Pro есть сравнение, там уже больше кода писать нужно (и качество, соответственно, меньше).