"Критерии оценки ИИ-агентов Мы окончательно вошли в пост-бенчмарк эру, и формальные бенчи LLM/агентов дают всё меньше ценности. Так что у меня выработались субъективные, __вайб__-метрики (пусть даже некоторые и выведены из численных/качественных показателей). Методика простая: есть ряд отложенных типовых проектов/задач + повседневные рабочие задачи, которые я даю тестируемым агентам в параллель и сравниваю результаты. Оцениваю я работу именно агентов, и используются только родные, вендорские обвязки (к примеру, Claude Code / Codex CLI). Оценки по каждому из критериев от 1 до 10, и выставляются относительно лучшего агента из сравниваемых (т.е. 10 ≠ абсолют). БазаРизонинг Способность к многоходовым логическим цепочкам, нетривиальным выводам, пониманию неочевидных зависимостей, глубина мышления. ● Работа с контекстом Удержание, экономность использования, галлюцинации, способность проносить важные детали через компактизации. ● Следование инструкциям ... плюс способность их принимать во внимание все разом, внимание к мелочам, управляемость. ● Агентность Автономное выполнение задач с эффективным использованием выданных инструментов (и создание своих на ходу), а также способность доводить работу до конца. СпособностиПланирование Анализ требований, их непротиворечивости и осуществимости, с граундингом на существующий проект, адекватная разбивка по этапам и задачам. ● Архитектура Способность понимать, оперировать и следовать архитектурным концепциям и установленным границам, предлагать неконфликтующие изменения. ● Рефакторинг Понимание типовых рефакторингов, code smells и способность делать аккуратные изменения в существующей кодовой базе, не ломая проект и не оставляя хвостов. ● Трейсинг (расследование) Умение качественно ""идти по следу"", когда нужно раскопать какой-то баг, найти проблемы с безопасностью, провести code review. ЭксплуатацияИнструментарий Возможности и удобства, предоставляемые пользователю агента, кастомизация воркфлоу, автоматизация (SDK, App Server), набор интерфейсов (CLI / GUI / Web). ● Стабильность Насколько стабилен и повторяем выдаваемый результат с т.з. качества на схожих задачах. ● Скорость Тут как размышления, так и генерация токенов, и в целом скорость внесения изменений в проект. ● Экономность Насколько много агент тратит токенов на успешное решение задачи и насколько это дорого выходит. ● Софт-скиллы? Суровый ботан или восторженный подхалим? Ну нееет, это отдельная тема, как-нибудь потом :) — Прошлые обзоры можно посмотреть по тегу: #review"