Как понять, что ИИ «отупел»? Сервис Margin Evals Degradation Trackers… — @bezsmuzi

Как понять, что ИИ «отупел»? Сервис Margin Evals Degradation Trackers объективно отслеживает качество работы ИИ-помощников в реальном времени, избавляя от субъективных догадок об их деградации. Как это работает и почему это полезно: * Реальные условия: Ежедневные тесты Claude Code и Codex идут напрямую через официальные CLI. Это значит, что метрики отражают именно то, с чем сталкивается реальный пользователь. * Глубокая аналитика: Помимо успешности решения задач (pass rate), сервис фиксирует расход токенов, время работы и количество вызовов инструментов (tool calls). * Умный мониторинг: Трекер автоматически подсвечивает статистически значимые просадки в качестве ответов. > Важный нюанс: Дневная выборка тестов небольшая (N=50), поэтому для объективной картины лучше смотреть на графики за неделю или месяц. > Если вам снова показалось, что Opus или Codex стали хуже справляться с кодом — теперь это можно проверить на цифрах: 🦀 Claude Code: marginlab.ai/trackers/claude-code 🧑‍💻 Codex: marginlab.ai/trackers/codex Автор https://t.me/vercello_notes

Из этого канала