Рейтинг AI+Coding агентов Кто-то догадался, как оценить использование людьми… — @llm_under_hood

Рейтинг AI+Coding агентов Кто-то догадался, как оценить использование людьми AI+Coding агентов. Они мониторят сгенерированные агентами Pull Requests в открытые Github repositories. На основе этого можно посчитать как объем созданных PRs, так и число тех, которые были приняты. Эти две цифры уже дают __примерную__ __оценку__ успешности работы (Merge success rate). А если построить график по дням, то получится еще и динамика. Кого используют больше, кто становится точнее, кто самый популярный. Вот ссылка на интерактивный отчет. Github Repo - тут расписана методика измерения. Интересны тренды: (1) OpenAI Codex появился месяц назад, но уже уделывает Devin в 10x раз по объемам использования. Успешность продолжает расти, как и объемы (2) Сursor - второй по уровню успешности, но он в последнее становится хуже 🥹 (3) Успешность Copilot продолжает расти. Такими темпами они скоро обгонят Devin и догонят Cursor А какие ресурсы для AI+Coding используете вы? Ваш, @llm_under_hood 🤗 PS: Спасибо @kuchin, который поделился ссылкой в нашем чате курса. PPS: как заметил @uberkinder - оценка успешности очень примерная, она зависит от UX продуктов. Надежнее просто смотреть на объем merged PRs.

Из этого канала