Одна из самых массовых и одновременно нерешённых проблем в ML-продуктах - как оценить реальное качество того, что система выдаёт пользователю. Поиск, рекомендации, диалоговые системы, ранжирование - везде одна и та же история: единственный достоверный сигнал приходит от живых пользователей. CTR, конверсии, жалобы. То есть сначала вы ломаете кому-то опыт, потом узнаёте об этом. Отсюда целая индустрия ручной разметки и пост-оценки. Толпы аннотаторов, guidelines на десятки страниц, контроль inter-annotator agreement. Дорого, медленно, и всё равно не масштабируется. А главное - это всегда реактивный подход. Проблема уже случилась, вы её потом находите. Команда Zalando сделала кое-что любопытное. Перед запуском магазинов в трёх новых странах (Португалия, Греция, Люксембург) они поставили LLM в позицию «судьи» - оценивать релевантность поисковой выдачи вместо людей, до того как первый живой пользователь увидит результаты. Подход спорный - LLM оценивает LLM, и вопросы к калибровке таких оценок никуда не делись. Но вот что интересно в реализации. Они не просто прогнали запросы через модель. Они кластеризовали реальные поисковые запросы с существующих рынков по семантическому интенту, перевели их на язык нового рынка и сравнили, как система понимает одни и те же сущности в разных языках. Если в английском запросе «sneakers» распознаётся как категория обуви, а в португальском «ténis» путается с видом спорта «теннис» - это конкретный, actionable баг, найденный до запуска. Без единого живого пользователя. Результат: в Португалии нашли проблемы с лемматизацией спортивных терминов, нераспознанные категории вроде «menina» (девочка), проблемы с целыми брендами, чьи товары оказались фактически не находимы через поиск. Всё починено до go-live. Стоимость полного прогона - 250 долларов и 3–5 часов. Ручная аннотация того же объёма заняла бы дни и стоила бы на порядки дороже. Пока рано говорить, что LLM-as-a-judge заменит человеческую оценку полностью - edge cases, субъективность и модные тренды модель ловит слабо. Но как инструмент проактивного QA с покрытием, недоступным для ручной работы, - это рабочий паттерн. И применим он далеко за пределами поиска: любая система, где нужно оценить «а то ли мы показываем пользователю» - от чат-ботов до рекомендательных лент - может использовать тот же подход. https://engineering.zalando.com/posts/2026/03/search-quality-assurance-with-llm-judge.html
Одна из самых массовых и одновременно нерешённых проблем в ML-продуктах - как…
Из этого канала
- #2732Коллеги, не пропустите уникальное мероприятие!
Коллеги, не пропустите уникальное мероприятие!
- #2733VTORNIK.Вечер #6 31 марта, с 19:00 до 21:00 мы рады вас пригласить на наш новый…
VTORNIK.Вечер #6 31 марта, с 19:00 до 21:00 мы рады вас пригласить на наш новый митап. В этот раз он пройдет как обычно офлайн, но на новой площадке (!).
- #2734Друзья, 7 апреля в Центре событий РБК пройдёт 15-й форум FINNEXT — одна из…
Друзья, 7 апреля в Центре событий РБК пройдёт 15-й форум FINNEXT — одна из немногих площадок, где банки, финтех, ритейл и регуляторы разговаривают на одном…
- #2730Коллеги, обратите внимание на мероприятие, которое проводит ключевой игрок…
Коллеги, обратите внимание на мероприятие, которое проводит ключевой игрок рынка управления данными в РФ — DIS Group.
- #2729Итак, раз уж я заговорил о Claude Code, то теперь было бы неплохо что-то…
Итак, раз уж я заговорил о Claude Code, то теперь было бы неплохо что-то реально полезное опубликовать.