Как понять, что ИИ «отупел»? Сервис Margin Evals Degradation Trackers объективно отслеживает качество работы ИИ-помощников в реальном времени, избавляя от субъективных догадок об их деградации. Как это работает и почему это полезно: * Реальные условия: Ежедневные тесты Claude Code и Codex идут напрямую через официальные CLI. Это значит, что метрики отражают именно то, с чем сталкивается реальный пользователь. * Глубокая аналитика: Помимо успешности решения задач (pass rate), сервис фиксирует расход токенов, время работы и количество вызовов инструментов (tool calls). * Умный мониторинг: Трекер автоматически подсвечивает статистически значимые просадки в качестве ответов. > Важный нюанс: Дневная выборка тестов небольшая (N=50), поэтому для объективной картины лучше смотреть на графики за неделю или месяц. > Если вам снова показалось, что Opus или Codex стали хуже справляться с кодом — теперь это можно проверить на цифрах: 🦀 Claude Code: marginlab.ai/trackers/claude-code 🧑💻 Codex: marginlab.ai/trackers/codex Автор https://t.me/vercello_notes
Как понять, что ИИ «отупел»? Сервис Margin Evals Degradation Trackers…
Из этого канала
- #16347Так и есть :)
Так и есть :)
- #16348Понимаю теперь вайб-кодеров. Вместо залипания в чужих рилсах, я теперь залипаю…
Понимаю теперь вайб-кодеров. Вместо залипания в чужих рилсах, я теперь залипаю в ИИ и наблюдаю, как она пишет код.
- #16349Слишком знакомая ситуация для всех студентов выглядит так :). На авось. 🟪 MAX ❤…
Слишком знакомая ситуация для всех студентов выглядит так :). На авось. 🟪 MAX ❤ TG
- #16345UBTECH Walker C1. Это не генерация (ну так пишут) и не ускорено. КАК? Вот этим…
UBTECH Walker C1. Это не генерация (ну так пишут) и не ускорено. КАК? Вот этим бы я хотел заниматься (роботами, не танцами). 🟪 MAX ❤ TG
- #16344Top 28 сайтов по ИИ-тематике. Список самых топовых ИИ-ресурсов по посещаемости.…
Top 28 сайтов по ИИ-тематике. Список самых топовых ИИ-ресурсов по посещаемости. 1. chatgpt.com — Самый популярный в мире ИИ-чат от OpenAI.