CodeClash: Benchmarking Goal-Oriented Software Engineering (сайт проекта) Новый… — @seeallochnaya

CodeClash: Benchmarking Goal-Oriented Software Engineering (сайт проекта) Новый бенчмарк от Ofir Press и команды SWE-bench. Авторы замечают, что текущие бенчмарки для оценки навыков программирования завязаны на конкретных, четко сформулированных задачах, таких как исправление определенных ошибок или написание точечных тестов. Однако реальные программисты не занимаются весь день решением изолированных задач. На практике разработка связана с достижением высокоуровневых целей, таких как повышение удержания пользователей или снижение расходов. Так и появился CodeClash — бенчмарк, в котором LLM соревнуются в многораундовых турнирах за создание лучшей кодовой базы для достижения некоторой цели (в данном случае на примере 6 игр, но в целом это может быть хоть что, где можно делать симуляции и замерять качество). То есть играет не сама модель, а код, который она пишет и улучшает. Каждый раунд проходит в две фазы: агенты редактируют свой код, затем их кодовые базы соревнуются друг с другом, где победители определяются на основе критериев конкретной игры. Каждый раунд проводят по 1000 игр. Редактирование между раундами ограничено $1 на API (так что Opus 4.1 грустит в сторонке) и 30 шагами. Авторы пишут, что в долларовое ограничение модели почти не упираются, а вот по шагам — вполне. Разрыв с человеческим уровнем значителен. Авторы взяли топ-решение для одной из игр (под названием «gigachad» 😂), модель Claude Sonnet 4.5 не выиграла ни одного из 150 раундов против него, что соответствует нулю из 37 500 симуляций (10 турниров × 15 раундов × 250 симуляций). При этом человеческий бот оставался неизменным на протяжении всех раундов, его никак не адаптировали.

Из этого канала