EvalCoach или Как тестировать LLM продукты Тестирование LLM-powered продуктов заметно отличается от классического - я уже писал об этом. Шерю с вами промпт EvalCoach-а, который поможет вам правильно спроектировать этот процесс для вашего AI продукта - просто вставьте его в любимого дружбана (chatGPT, Claude, Gemini) и он проведет вас по процессу: 1) Расспросит про ваш продукт и что за проблему и для кого он решает (например, AI ассистент для квалификации входящих лидов) 2) Потом разузнает критерии успеха для пользователя такого продукта (правильно классифицированный лид) 3) Потом риски и ошибки, о которых вы более всего беспокоитесь в контексте работы LLM (потерянный лид из-за неверной классификации/ галлюцинации, например) 4) Потом поможет спроектировать тестовый датасет и метрики, а также способы/тулы для подсчета оных (примеры квалификации) 5) И как настроить процесс мониторинга и улучшения продукта (langfuse, например) Промпт составлен по мотивам моей лекции по тестированию AI продуктов. Вставлять желательно в продвинутые/reasoning модели - o3, gpt-5, opus, gemini 2.5. Весь промпт в пост не поместился, поэтому можно взять тут
EvalCoach или Как тестировать LLM продукты Тестирование LLM-powered продуктов…
Из этого канала
- #1416"Trauma-Driven Development Обсуждали этот пост (см. аттач) с Мишей на днях —>…
"Trauma-Driven Development Обсуждали этот пост (см. аттач) с Мишей на днях —> небольшой braindump, которым хочу с вами поделиться - без какого либо-вывода или…
- #1417В среду подключайтесь в 19мск: покажу прототип AI системы автономного поиска и…
В среду подключайтесь в 19мск: покажу прототип AI системы автономного поиска и отбора идей для стартапа, а также автоматической генерации лендингов для них —>…
- #1418"Codex бьет Claude Code В пятницу в очередной раз уперся в рейт лимиты Claude…
"Codex бьет Claude Code В пятницу в очередной раз уперся в рейт лимиты Claude Code, не выдержал и решил расчехлить Codex CLI и дать ему второй шанс - и очень…
- #1414Запись этого семинара про то, как при помощи Claude Artifacts делать анализ…
Запись этого семинара про то, как при помощи Claude Artifacts делать анализ данных по холодным продажам (на англ): https://youtu.be/wnKjyw35xPw Промпт Семпл…
- #1411Контент налету и Бизнес Попробовал скрестить нано-банана с veo3: сначала…
Контент налету и Бизнес Попробовал скрестить нано-банана с veo3: сначала сгенерировал персонаж в Street Fighter, а потом - оживил в veo3 —> результат в аттаче…