Как проверять качество AI чатботов, которые интегрируются в бизнес? Вот примерно так, как на этом скриншоте. Список вопросов текстом слева и автоматические оценки справа. При необходимости - возможность зайти в каждый тест и посмотреть, что там было неправильно. Если командам разработки подготовить тесты/evals в таком формате (что не требует навыков в AI), тогда для самих разработчиков все становится кристально понятно, а процесс повышения качества превращается в увлекательную игру. __А как вы тестируете качество чатботов?__ Ваш, @llm_under_hood 🤗 PS: про мой подход к тестированию, см в истории про спасение проекта с LLM под капотом.
Как проверять качество AI чатботов, которые интегрируются в бизнес? Вот…
Из этого канала
- #715Помните, я рассказывал, что Lukasz Kaiser (OpenAI Reasoning Research, один из…
Помните, я рассказывал, что Lukasz Kaiser (OpenAI Reasoning Research, один из авторов той самой статьи «Attention is all you need», которая начала эру…
- #716AI Coding - итоги разработки ERC3 платформы Итак, платформа для…
AI Coding - итоги разработки ERC3 платформы Итак, платформа для соревновательного тестирования агентов запущена, и получилась достаточно сложная (глянуть тут).
- #717Финал ERC3! URL Updated! Стрим будет тут через час. Запись останется. Подведем…
Финал ERC3! URL Updated! Стрим будет тут через час. Запись останется. Подведем итоги и поговорим про архитектуры победителей, агенты которых которых смогли…
- #713Три технических отличия успешных внедрений ИИ в бизнес - это мой доклад на…
Три технических отличия успешных внедрений ИИ в бизнес - это мой доклад на платформе ИИтоги-25.
- #712ERC3-PROD is live (1) Призовой сompete-accuracy раунд продлится в сумме 3 часа.…
ERC3-PROD is live (1) Призовой сompete-accuracy раунд продлится в сумме 3 часа. 10:40 CET - 13:40 CET.