CodeClash: Benchmarking Goal-Oriented Software Engineering (сайт проекта) Новый бенчмарк от Ofir Press и команды SWE-bench. Авторы замечают, что текущие бенчмарки для оценки навыков программирования завязаны на конкретных, четко сформулированных задачах, таких как исправление определенных ошибок или написание точечных тестов. Однако реальные программисты не занимаются весь день решением изолированных задач. На практике разработка связана с достижением высокоуровневых целей, таких как повышение удержания пользователей или снижение расходов. Так и появился CodeClash — бенчмарк, в котором LLM соревнуются в многораундовых турнирах за создание лучшей кодовой базы для достижения некоторой цели (в данном случае на примере 6 игр, но в целом это может быть хоть что, где можно делать симуляции и замерять качество). То есть играет не сама модель, а код, который она пишет и улучшает. Каждый раунд проходит в две фазы: агенты редактируют свой код, затем их кодовые базы соревнуются друг с другом, где победители определяются на основе критериев конкретной игры. Каждый раунд проводят по 1000 игр. Редактирование между раундами ограничено $1 на API (так что Opus 4.1 грустит в сторонке) и 30 шагами. Авторы пишут, что в долларовое ограничение модели почти не упираются, а вот по шагам — вполне. Разрыв с человеческим уровнем значителен. Авторы взяли топ-решение для одной из игр (под названием «gigachad» 😂), модель Claude Sonnet 4.5 не выиграла ни одного из 150 раундов против него, что соответствует нулю из 37 500 симуляций (10 турниров × 15 раундов × 250 симуляций). При этом человеческий бот оставался неизменным на протяжении всех раундов, его никак не адаптировали.
CodeClash: Benchmarking Goal-Oriented Software Engineering (сайт проекта) Новый…
Из этого канала
- #3055CodeClash выявляет существенные различия в подходах моделей к редактированию…
CodeClash выявляет существенные различия в подходах моделей к редактированию кода.
- #3056Картинка с результатами всех протестированных моделей
Картинка с результатами всех протестированных моделей
- #3057начинаем день с грустной правды оригинал UPD: насколько я понял по…
начинаем день с грустной правды оригинал UPD: насколько я понял по комментариям, черепахи не заботятся о детях, «после вылупления детёныши полностью…
- #3053Собираю материал для нового лонгрида, и его уже так много, что точно придётся…
Собираю материал для нового лонгрида, и его уже так много, что точно придётся выкидывать часть.
- #3052Epoch.AI собрали информацию по крупным строящимся и планируемым датацентрам…
Epoch.AI собрали информацию по крупным строящимся и планируемым датацентрам мощностью не менее 1 ГигаВатта, всего таких в США 13 штук.