Одна из самых массовых и одновременно нерешённых проблем в ML-продуктах - как… — @cdo_club

Одна из самых массовых и одновременно нерешённых проблем в ML-продуктах - как оценить реальное качество того, что система выдаёт пользователю. Поиск, рекомендации, диалоговые системы, ранжирование - везде одна и та же история: единственный достоверный сигнал приходит от живых пользователей. CTR, конверсии, жалобы. То есть сначала вы ломаете кому-то опыт, потом узнаёте об этом. Отсюда целая индустрия ручной разметки и пост-оценки. Толпы аннотаторов, guidelines на десятки страниц, контроль inter-annotator agreement. Дорого, медленно, и всё равно не масштабируется. А главное - это всегда реактивный подход. Проблема уже случилась, вы её потом находите. Команда Zalando сделала кое-что любопытное. Перед запуском магазинов в трёх новых странах (Португалия, Греция, Люксембург) они поставили LLM в позицию «судьи» - оценивать релевантность поисковой выдачи вместо людей, до того как первый живой пользователь увидит результаты. Подход спорный - LLM оценивает LLM, и вопросы к калибровке таких оценок никуда не делись. Но вот что интересно в реализации. Они не просто прогнали запросы через модель. Они кластеризовали реальные поисковые запросы с существующих рынков по семантическому интенту, перевели их на язык нового рынка и сравнили, как система понимает одни и те же сущности в разных языках. Если в английском запросе «sneakers» распознаётся как категория обуви, а в португальском «ténis» путается с видом спорта «теннис» - это конкретный, actionable баг, найденный до запуска. Без единого живого пользователя. Результат: в Португалии нашли проблемы с лемматизацией спортивных терминов, нераспознанные категории вроде «menina» (девочка), проблемы с целыми брендами, чьи товары оказались фактически не находимы через поиск. Всё починено до go-live. Стоимость полного прогона - 250 долларов и 3–5 часов. Ручная аннотация того же объёма заняла бы дни и стоила бы на порядки дороже. Пока рано говорить, что LLM-as-a-judge заменит человеческую оценку полностью - edge cases, субъективность и модные тренды модель ловит слабо. Но как инструмент проактивного QA с покрытием, недоступным для ручной работы, - это рабочий паттерн. И применим он далеко за пределами поиска: любая система, где нужно оценить «а то ли мы показываем пользователю» - от чат-ботов до рекомендательных лент - может использовать тот же подход. https://engineering.zalando.com/posts/2026/03/search-quality-assurance-with-llm-judge.html

Из этого канала