SWE-rebench: A Continuously Evolving and Decontaminated Benchmark for Software Engineering LLMs Сегодня стандартом для оценки SWE агентов является SWE-bench Verified. Его задумка очень понятная и как-то приближена к разработке чего-то большего, чем генерация кода: мы запускаем агента на настоящих задачках из GitHub, проверяем в конце прохождение отложенных тестов и смотрим на их результат. Но с SWE-bench Verified есть несколько проблем: - Изначальный датасет был публично выложен в конце 2023 года. Последние модели может и неявно, но с очень высокой вероятностью захватили все эти данные в обучении, отчего рост чисел на бенче на какую-то часть связан с контаминацией. Да и без этого многие используют Verified как валидацию для экспериментов с агентом, неявно переобучаясь под него. По этой же причине в свое время появился LiveCodeBench для решения обычных задач для кодинга. - Самые первые релизы на лидерборде хорошо описывали структуру агента и параметры запуска так, что было понятно, что вот это решение докинуло за счет перевода с gpt4o на sonnet-3.5, а вот это — просто промпты потюнили или тулы сделали лучше. Сейчас же лидерборд превратился в солянку, по которой просто непонятно, что происходит: best-of-N запуски, верификация доп тестами, MCTS, миллион разных скаффолдингов, уже даже непонятно, какая модель используется внутри, тк многие сабмиты на лидерборде — это закрытые решения компаний. Мы попробовали закрыть часть этих пробелов и сегодня релизим SWE-rebench! Для борьбы с потенциальной контаминацией, мы будем регулярно обновлять лидерборд с замерами на свежих задачах. Скаффолдинг агента при этом везде фиксирован, чтобы запуски с разными моделями были сравнимы между собой. Так как наш пайплайн сбора данных позволяет автоматически контролировать сложность задач, то в будущем мы будем использовать это для борьбы с насыщением бенчмарка. Детали можно прочитать на сайте самого бенча, ну и конечно приглашаю заглянуть на текущий лидерборд. Если вы привыкли читать обзоры в Х, там тоже есть подходящий контент.
SWE-rebench: A Continuously Evolving and Decontaminated Benchmark for Software…
Из этого канала
- #1097Там потестили модельки на написание солверов для уравнений в частных…
Там потестили модельки на написание солверов для уравнений в частных производных. Дали на тест 5 типов уравнений Уравнение адвекции: Моделируют явления…
- #1101Привет! А мы тут не отстаем от Дипмайнда: нашли новый алгоритм умножения XX^t.…
Привет! А мы тут не отстаем от Дипмайнда: нашли новый алгоритм умножения XX^t. Для 4x4 матриц получили алгоритм с 34 умножениями (у SotA было 38).
- #1103Обзор по thinkingу от Лилиан Венг Why We Think…
Обзор по thinkingу от Лилиан Венг Why We Think https://lilianweng.github.io/posts/2025-05-01-thinking/
- #1095Еще порция чатгпт ресечей по ии Ии в промышленности…
Еще порция чатгпт ресечей по ии Ии в промышленности https://github.com/researchim-ai/state-of-ai/blob/main/AIindustry.md квантизация ллмок…
- #1094NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом…
NVIDIA научила гуманоидных роботов двигаться, как люди - но при нулевом дообучении после переключения из симуляции на реальный мир Если коротко, десять лет…