"evaluation тесты. Eval тесты можно ненавидеть, eval тесты можно любить. Eval… — @neuralstack

"evaluation тесты. Eval тесты можно ненавидеть, eval тесты можно любить. Eval тесты можно не понимать. Eval тестов можно боятся как дополнительный источник затрат на токены 🤵 Но их нельзя не писать для любой AI системы которая хотя бы на один порядок сложнее и нужнее weather api агента. Точнее как… не писать их конечно можно, но вот не делать их вовсе – невозможно. Если вы говорите что у вас совсем нет eval’ов, то вы просто обманываете сами себя. Вы ведь запускаете систему хотя бы для мануального тестирования, чтобы проверить работает ли оно вообще? Ну вот! Медленный, крайне неэффективный, мануальный – но это eval тест. Для меня разработка eval тестов это __неотъемлемая__ часть внедрения AI на любой бэкенд, который обслуживает живых людей и бизнес. * Под сложностью системы я тут подразумеваю прямую отвественность, которая налагается на нее в смысле функциональности. Под нужностью, я имею в виду непосредственно ""продуктовость."" Часто получается так, что чем ""нужность"" больше, тем больше требуется точности в смысле отсутствия галлюцинаций, предсказуемости работы. В старом software 1.0 мире программные системы которые живут без покрытия юнит и интеграционными тестами – это база :) Представить успешный AI продукт, действительно бизнес продукт, без набора e2e/eval тестов я просто не могу. Зато я могу представить стартап в котором появились и инвестиции, и даже клиенты, а потом спешно нанимался штат из десятков специалистов, работой которых являлось высматривание «продукта» глазами и исправление косяков руками. С несколькими такими стартапами я общался в формате микро-консультаций. Знаете чего у них не было? Правильно – тестов. Вообще. Никаких. Знаете где они? Либо __уже__, либо вот-вот – __нигде__. Справедливости ради, наверное есть два случая, когда можно обойтись условно меньшим числом строгих eval'ов. Помимо чрезвычайной простоты кейса, второй случай это когда у нас команда с абсолютной экспертизой в домене и фактически религиозным dogfooding'ом. Но давайте будем честны с собой... Насколько часто такое встречается? * Самое коварное в системе-хорадрическом кубике без eval тестов и других страховочных механизмов то что она может ждать долго, выдавать вполне нормальные результаты пока, например, формат или язык входных данных не изменится. А самое опасное сейчас – это __анти-eval пропаганда__ в комьюнити. Не ведитесь на нее. Пишите тесты чем раньше тем лучше. А лучше – сразу. Фиксируйте свои ожидания в коде. На картинке плашка из документации pydantic-ai со страницы про pydantic-evals. @neuralstack"

Из этого канала