"Как научиться понимать, что AI-продукт действительно стал лучше? Когда новый промпт показывает хорошие результаты на нескольких примерах, или после смены модели ответы выглядят убедительнее, то это, конечно, хорошо. Но настоящий специалист понимает, что это ровно ничего не значит. Эвалы не живут без метрик, тестовых наборов и системной оценки. Без всего этого невозможно сказать, улучшился продукт или вам просто кажется. 18 июня Школа Высшей Математики запускает 5-недельный курс по AI Evals. Его ведет Андрей Киселев, который недавно проводил вебинар про системную оценку качества AI-продуктов, который мы недавно рекомендовали. На курсе как раз разберут полный цикл работы с оценкой AI-систем: выбор метрик, построение eval-пайплайнов, анализ ошибок, LLM-as-a-judge, работу без размеченных данных и тестирование сложных агентов, RAG-систем и многошаговых диалогов. Знания будут максимально полезны AI/ML-инженерам, продактам и тимлидам, которые отвечают за качество AI-фич и хотят принимать решения на основе данных, а не субъективных впечатлений. В ближайшие годы это будет ключевой навык (и надежный способ выделяться на собеседованиях). Старт 18 июня. Для подписчиков Data Secrets действует скидка 25% по промокоду DS25. Подробности и регистрация -> здесь __Реклама. ООО ""Школа Высшей Математики"", ИНН ____9728100991__"
"Как научиться понимать, что AI-продукт действительно стал лучше? Когда новый…
Из этого канала
- #9370Аналитики из SemiAnalysis посчитали, сколько действительно костов заложено в…
Аналитики из SemiAnalysis посчитали, сколько действительно костов заложено в подписки на ИИ Они взяли каждую из подписок OpenAI и Anthropic (за 20$, за 100 и…
- #9367"AI-рисерчеры настолько зашеймили Anthropic за скрытые ограничения Fable, что…
"AI-рисерчеры настолько зашеймили Anthropic за скрытые ограничения Fable, что стартап поменял политику менее чем за 48 часов после релиза После выхода модели…
- #9362Google выпустили открытую диффузионную языковую модель DiffusionGemma Год назад…
Google выпустили открытую диффузионную языковую модель DiffusionGemma Год назад они релизили Gemini Diffusion, но тогда попробовать необычную модель можно было…
- #9361AWS решили ультануть и выдали, что вайбкодинг замедляет команды Больше кода,…
AWS решили ультануть и выдали, что вайбкодинг замедляет команды Больше кода, созданного с помощью ИИ, не делает вашу команду быстрее.