"Критерии оценки ИИ-агентов Мы окончательно вошли в пост-бенчмарк эру, и формальные бенчи LLM/агентов дают всё меньше ценности. Так что у меня выработались субъективные, __вайб__-метрики (пусть даже некоторые и выведены из численных/качественных показателей). Методика простая: есть ряд отложенных типовых проектов/задач + повседневные рабочие задачи, которые я даю тестируемым агентам в параллель и сравниваю результаты. Оцениваю я работу именно агентов, и используются только родные, вендорские обвязки (к примеру, Claude Code / Codex CLI). Оценки по каждому из критериев от 1 до 10, и выставляются относительно лучшего агента из сравниваемых (т.е. 10 ≠ абсолют). База ● Ризонинг Способность к многоходовым логическим цепочкам, нетривиальным выводам, пониманию неочевидных зависимостей, глубина мышления. ● Работа с контекстом Удержание, экономность использования, галлюцинации, способность проносить важные детали через компактизации. ● Следование инструкциям ... плюс способность их принимать во внимание все разом, внимание к мелочам, управляемость. ● Агентность Автономное выполнение задач с эффективным использованием выданных инструментов (и создание своих на ходу), а также способность доводить работу до конца. Способности ● Планирование Анализ требований, их непротиворечивости и осуществимости, с граундингом на существующий проект, адекватная разбивка по этапам и задачам. ● Архитектура Способность понимать, оперировать и следовать архитектурным концепциям и установленным границам, предлагать неконфликтующие изменения. ● Рефакторинг Понимание типовых рефакторингов, code smells и способность делать аккуратные изменения в существующей кодовой базе, не ломая проект и не оставляя хвостов. ● Трейсинг (расследование) Умение качественно ""идти по следу"", когда нужно раскопать какой-то баг, найти проблемы с безопасностью, провести code review. Эксплуатация ● Инструментарий Возможности и удобства, предоставляемые пользователю агента, кастомизация воркфлоу, автоматизация (SDK, App Server), набор интерфейсов (CLI / GUI / Web). ● Стабильность Насколько стабилен и повторяем выдаваемый результат с т.з. качества на схожих задачах. ● Скорость Тут как размышления, так и генерация токенов, и в целом скорость внесения изменений в проект. ● Экономность Насколько много агент тратит токенов на успешное решение задачи и насколько это дорого выходит. ● Софт-скиллы? Суровый ботан или восторженный подхалим? Ну нееет, это отдельная тема, как-нибудь потом :) — Прошлые обзоры можно посмотреть по тегу: #review"
"Критерии оценки ИИ-агентов Мы окончательно вошли в пост-бенчмарк эру, и…
Из этого канала
- #288"Вайб-обзор на GPT-5.3 Codex, Opus 4.6, и (бонус) GPT-5.2 (1/2) Тееек, потестил…
"Вайб-обзор на GPT-5.3 Codex, Opus 4.6, и (бонус) GPT-5.2 (1/2) Тееек, потестил новые модели от OpenAI и Anthropic.
- #290Вайб-обзор на GPT-5.3 Codex, Opus 4.6 и (бонус) GPT-5.2 (2/2) 🟡 Команды агентов…
Вайб-обзор на GPT-5.3 Codex, Opus 4.6 и (бонус) GPT-5.2 (2/2) 🟡 Команды агентов Это фича больше Claude Code, но модель тут тоже имеет значение - в…
- #291"Конференция ROИИ 2026 Senior + AI вместо целой команды - уравнение, которое…
"Конференция ROИИ 2026 Senior + AI вместо целой команды - уравнение, которое сейчас считает каждый CTO. Но почти все считают его неправильно.
- #286"Режим команды агентов Ну что, будущее наступило, я сейчас описал команду,…
"Режим команды агентов Ну что, будущее наступило, я сейчас описал команду, базовые роли, и дал продуктовую задачу.
- #285"Как спорить об ИИ-агентах Нередко приходится читать вот такие комменты: codex…
"Как спорить об ИИ-агентах Нередко приходится читать вот такие комменты: codex - фигня клод вообще тащит tl;dr: нужно как минимум вот так: GPT-5.2-Codex xhigh…