CodeClash выявляет существенные различия в подходах моделей к редактированию кода. Например, модели o3 и Gemini 2.5 Pro обычно редактируют в среднем всего 2 файла за раунд, в то время как GPT-5 изменяет от 5 до 6 файлов (при этом её качество в среднем лишь совсем чуть-чуть лучше o3). Размер правок также сильно отличается: o3 в среднем добавляет или удаляет 51 строку за раунд, что в 8 раз меньше, чем у Qwen3 Coder или моделей семейства Claude Sonnet, которые обычно изменяют более 400 строк. Claude Sonnet 4.5 обычно использует 23 из предоставленных 30 шагов редактирования, тогда как GPT-5 и o3 завершают раунд всего за 15 шагов. Ключевых инсайта к деградации качества у моделей два: I. Даже сильные модели испытывают трудности с восстановлением после проигранных раундов. В реальной разработке ранние решения часто принимаются в условиях неопределённости: оптимальный подход может выявиться только после тестирования, реального использования и наблюдения за конкурентами. Поэтому способность интерпретировать шумные сигналы и пересматривать внутренние гипотезы и ключевые архитектурные решения крайне важна для успеха на практике. Раундовая структура CodeClash показывает, насколько плохо языковые модели адаптируются после провала их начальной стратегии. Например, для Claude Sonnet 4.5 после проигрыша одного раунда вероятность победы в следующем составляет менее трети, что вдвое ниже её общей вероятности выигрыша раунда (71%). II. Большинство моделей испытывают затруднения при анализе логов и не могут извлечь значимых инсайтов о своём поведении. Агенты имеют доступ к подробным записям всех предыдущих раундов, включая сотни и даже тысячи симуляций против оппонентов. Эти логи могут показать не только улучшила ли изменения прошлого раунда процент побед, но и точное поведение, приведшее к выигрышу или проигрышу. Однако, несмотря на явные подсказки в промпте написать инструменты анализа, большинство моделей не способны извлечь из логов полезную информацию и зачастую ограничиваются чтением первых строк или простым подсчётом процента побед за последний раунд. При этом всём модели часто галлюцинируют в процессе анализа своих ошибок и неверно интерпретируют логи и результаты анализа. Наиболее характерный пример — агенты делают выводы о причинах поражения на арене, прочитав лишь первые строки одного лога, хотя эти строки даже не содержат описания конца игры!
CodeClash выявляет существенные различия в подходах моделей к редактированию…
Из этого канала
- #3056Картинка с результатами всех протестированных моделей
Картинка с результатами всех протестированных моделей
- #3057начинаем день с грустной правды оригинал UPD: насколько я понял по…
начинаем день с грустной правды оригинал UPD: насколько я понял по комментариям, черепахи не заботятся о детях, «после вылупления детёныши полностью…
- #3059🩸 тем кто планировал умирать с мая по ноябрь 2026-го — придется отложить планы…
🩸 тем кто планировал умирать с мая по ноябрь 2026-го — придется отложить планы и подождать теперь уже перенесённой GTA VI Ждём ещё больше года...
- #3054CodeClash: Benchmarking Goal-Oriented Software Engineering (сайт проекта) Новый…
CodeClash: Benchmarking Goal-Oriented Software Engineering (сайт проекта) Новый бенчмарк от Ofir Press и команды SWE-bench.
- #3053Собираю материал для нового лонгрида, и его уже так много, что точно придётся…
Собираю материал для нового лонгрида, и его уже так много, что точно придётся выкидывать часть.