На помощь пришёл SWE-ReBench от команды исследователей из Nebius. Они тоже видят проблему в SWE-Bench (что он статичен и заточен на 12 очень популярных python-репозиториев), и потому полу-автоматизировали пайплайн сбора задач и прогоняют модели на них каждый месяц. Хоть сами репозитории наверное и были в тренировочных данных моделей, решения почти наверняка не попадались LLM — их просто не существовало в момент обучения, они были опубликованы позже. И что мы видим? Qwen-2.5-Coder-32B одна из худших моделей на лидерборде, с самой высокой долей полностью решённых задач в 7.5% (в мае, до этого колыхался на 4%). Зато в том же мае Claude 4 Sonnet решала 56% новых задач, DeepSeek V3 — 38%. Банально если бы соревнование проводилось в режиме, в котором ресурсы не ограничены (или можно использовать API проприетарных моделей) — получился бы пруф от обратного, что оказывается автономные агенты уже решают чуть ли не половину всех проблем на гитхабе (без участия человека). Но мы так конечно говорить не будем :) А в остальном бенчмарк очень похож на SWE-Bench. Правда, ребята намеренно не используют никаких продвинутых агентов (читай скаффолдингов), поэтому оценка качества тут скорее прокси снизу — можно прибавить условные 5-7%, если заменить на кого-то из топа SWE-Bench.
На помощь пришёл SWE-ReBench от команды исследователей из Nebius. Они тоже…
Из этого канала
- #2832Ну и давайте уж сразу не отходя от кассы посмотрим на самый свежий срез за…
Ну и давайте уж сразу не отходя от кассы посмотрим на самый свежий срез за июль. Внезапно GPT-5 оказывается впереди с большим отрывом от всех, особенно на…
- #2833Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable…
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards Вчера мы разбирали статью DeepSeek, в которой рассказывалось, как…
- #2834После этого считаем, что у нас есть GRM для качественной оценки творческого…
После этого считаем, что у нас есть GRM для качественной оценки творческого письма, и теперь уже можно учить LLM, которая будет хорошо писать (потому что её во…
- #2830"Ещё в конце июля наткнулся на репост вот этого текста парой каналов и хотел…
"Ещё в конце июля наткнулся на репост вот этого текста парой каналов и хотел написать его разгромную критику.
- #2829Когда написал разбор статьи на 5 постов с утра пораньше
Когда написал разбор статьи на 5 постов с утра пораньше