Качество - это траектория Недавно мы подкручивали промпт в нашем проекте. После изменений система стала работать лучше, но пользователи начали жаловаться. Поправили там, но сломалось где-то ещё. Сталкивались с таким, когда допиливали своего агента, копилота или продукт с LLM под капотом? Как я уже рассказывал, на этой неделе я был на саммите AI For Good ООН в Женеве. Через многие доклады и мастер классы красной линией проходила такая мысль: Невозможность контролировать качество продукта - это одна из самых частых причин, по которой эти самые AI продукты проваливаются. Эту статистику подтверждает и Asmaa EL Andaloussi (Lead Enterprise Strategist & Architect из Леново) и Julien Weissenberg (AI Advisor в World Economic Forum). Качество - это траектория. Инвесторов и пользователей волнует не столько точность ответов сегодня, сколько гарантии улучшения системы в следующие месяцы. Я постоянно повторяю командам - прежде чем браться за разработку системы с LLM под капотом - придумайте, как вы будете оценивать качество и точность этой системы. Соберите первый тестовый датасет - качество прототипа на нем станет вашей базовой линией. Сделайте такую архитектуру, где можно будет измерять точность разных блоков, системно собирать отзывы пользователей и интегрировать их в датасет для улучшения качества всей системы. Когда Asmaa рассказывала про внутреннюю кухню Perplexity (вы все знаете этот мультиагентный поисковик) она подчеркивала, что они сделали не просто работающую систему, а систему, которая может становиться лучше от релиза к релизу. В общем, продуктов с LLM под капотом есть тьма. Любой студент может навайбкодить что-то правдоподобное на LangChain, векторной БД или паре промптов. Иногда оно даже будет работать. Что отличает реально работающие продукты от поделок - возможность оценивать качество и планомерно его улучшать. Ведь quality is a trajectory. Ваш, @llm_under_hood 🤗
Качество - это траектория Недавно мы подкручивали промпт в нашем проекте.…
Из этого канала
- #614Вот такой вот пайплайн вырисовывается в системе для миграции легаси ERP системы…
Вот такой вот пайплайн вырисовывается в системе для миграции легаси ERP системы без тестов на современный стэк (описание кейса).
- #615Кейс про миграцию сотни старых MS Access файлов Ринат, а ты можешь показать,…
Кейс про миграцию сотни старых MS Access файлов Ринат, а ты можешь показать, как полу-автоматически перетащить сотни дремучих и разнообразных MS Access баз на…
- #616Очень хочется делиться мелкими фишками про AI+Coding, которые нахожу в процессе…
Очень хочется делиться мелкими фишками про AI+Coding, которые нахожу в процессе активного использования на проектах.
- #612Что думают про перспективы продуктов с LLM под капотом в крупнейшей в мире…
Что думают про перспективы продуктов с LLM под капотом в крупнейшей в мире консалтинговой компании? Я задал такой вопрос представителям Deloitte.
- #611И об OpenAI Codex: я в нем сейчас переписываю часть очень старой ERP системы…
И об OpenAI Codex: я в нем сейчас переписываю часть очень старой ERP системы прямо с сотового телефона (про кейс см тут, тут и тут).