Качество - это траектория Недавно мы подкручивали промпт в нашем проекте. После изменений система стала работать лучше, но пользователи начали жаловаться. Поправили там, но сломалось где-то ещё. Сталкивались с таким, когда допиливали своего агента, копилота или продукт с LLM под капотом? Как я уже рассказывал, на этой неделе я был на саммите AI For Good ООН в Женеве. Через многие доклады и мастер классы красной линией проходила такая мысль: Невозможность контролировать качество продукта - это одна из самых частых причин, по которой эти самые AI продукты проваливаются. Эту статистику подтверждает и Asmaa EL Andaloussi (Lead Enterprise Strategist & Architect из Леново) и Julien Weissenberg (AI Advisor в World Economic Forum). Качество - это траектория. Инвесторов и пользователей волнует не столько точность ответов сегодня, сколько гарантии улучшения системы в следующие месяцы. Я постоянно повторяю командам - прежде чем браться за разработку системы с LLM под капотом - придумайте, как вы будете оценивать качество и точность этой системы. Соберите первый тестовый датасет - качество прототипа на нем станет вашей базовой линией. Сделайте такую архитектуру, где можно будет измерять точность разных блоков, системно собирать отзывы пользователей и интегрировать их в датасет для улучшения качества всей системы. Когда Asmaa рассказывала про внутреннюю кухню Perplexity (вы все знаете этот мультиагентный поисковик) она подчеркивала, что они сделали не просто работающую систему, а систему, которая может становиться лучше от релиза к релизу. В общем, продуктов с LLM под капотом есть тьма. Любой студент может навайбкодить что-то правдоподобное на LangChain, векторной БД или паре промптов. Иногда оно даже будет работать. Что отличает реально работающие продукты от поделок - возможность оценивать качество и планомерно его улучшать. Ведь quality is a trajectory. Ваш, @llm_under_hood 🤗