EvalCoach или Как тестировать LLM продукты Тестирование LLM-powered продуктов заметно отличается от классического - я уже писал об этом. Шерю с вами промпт EvalCoach-а, который поможет вам правильно спроектировать этот процесс для вашего AI продукта - просто вставьте его в любимого дружбана (chatGPT, Claude, Gemini) и он проведет вас по процессу: 1) Расспросит про ваш продукт и что за проблему и для кого он решает (например, AI ассистент для квалификации входящих лидов) 2) Потом разузнает критерии успеха для пользователя такого продукта (правильно классифицированный лид) 3) Потом риски и ошибки, о которых вы более всего беспокоитесь в контексте работы LLM (потерянный лид из-за неверной классификации/ галлюцинации, например) 4) Потом поможет спроектировать тестовый датасет и метрики, а также способы/тулы для подсчета оных (примеры квалификации) 5) И как настроить процесс мониторинга и улучшения продукта (langfuse, например) Промпт составлен по мотивам моей лекции по тестированию AI продуктов. Вставлять желательно в продвинутые/reasoning модели - o3, gpt-5, opus, gemini 2.5. Весь промпт в пост не поместился, поэтому можно взять тут