"Netflix продолжает радовать общественность не только видео контентом но и… — @cdo_club

"Netflix продолжает радовать общественность не только видео контентом но и своим блогов и опубликовал на днях новую статью ""Democratizing Machine Learning at Netflix: Building the Model Lifecycle Graph"" Когда ML живёт в одном вертикали, инфраструктуры discovery не нужно. Все знают, у кого что. Как только ML расползается на несколько доменов — модели одной команды становятся невидимыми для других. Это и есть момент, когда приходится строить что-то поверх. Netflix описывает Metadata Service (MDS) - внутреннюю систему, которая строит Model Lifecycle Graph: единый граф связей между моделями, фичами, пайплайнами, экспериментами и датасетами поверх разнородного ML-стека. Проблема, которую MDS решает - рост ML за пределы исходного домена персонализации. Десять лет назад Netflix делал ML в одном вертикале на одном стеке. Сейчас - Personalization, Studio, Payments, Ads и далее. Десятки команд, разные tech stacks, разные business metrics, разные mental models. Каждая команда оптимизирует локально. Кросс-доменного переиспользования моделей и фич не происходит, потому что инфраструктуры discovery нет. Конкретный пример из поста: Studio строит content embeddings для пост-продакшена - ровно те же эмбеддинги нужны Ads под context matching и Personalization под episodic-рекомендации. Но никто про их существование не знает. Решение устроено так. События из всех ML-систем (Model Registry, Pipeline Orchestrator, Experimentation Platform, Feature Store, Dataset Platform) льются в MDS через Kafka и SNS/SQS. События тонкие - только идентификатор и тип. На каждое событие сервис сам идёт в source-of-truth за полным состоянием - это снимает проблему ordering и дропнутых сообщений. Дальше нормализация под глобальные AIP URI, запись в Datomic как primary store и Elasticsearch для поиска. Cross-domain связи собираются фоновыми задачами через многошаговый inference, потому что ни одна источниковая система это знание в одиночку не держит. Поверх GraphQL и портал, где практик ходит по графу. Самое интересное в этой истории не архитектура. Metadata-каталог решает социотехническую задачу: как заставить десятки команд эмитить унифицированные события и пользоваться общей системой идентификации. Netflix продавливает это через инфраструктурное принуждение - AIP URI единственный способ существовать в графе. Не эмитишь события - твоих сущностей в графе нет. Авторы сами это признают: качество графа ровно настолько, насколько дисциплинированы upstream. Это структурное ограничение всего класса metadata-каталогов, и оно никуда не девается. https://netflixtechblog.com/democratizing-machine-learning-at-netflix-building-the-model-lifecycle-graph-5cc6d5828bb1"

Из этого канала