Netflix снова выкатил статью про свои данные, и нам в редакции вот что… — @cdo_club

Netflix снова выкатил статью про свои данные, и нам в редакции вот что показалось интересным - они мимоходом описали базовый паттерн как у них операционные данные вообще попадают в единое аналитическое хранилище. Расклад простой. Боевые данные - Member, Billing, Recommendations, Subscriptions - лежат в Cassandra. Это OLTP-мир: быстрые точечные чтения и записи. Гонять по нему тяжёлую аналитику и батчи неудобно. Поэтому рядом ставят отдельный аналитический слой - Iceberg поверх объектного хранилища. Под большие сканы, SQL, ML-фичи, отчётность. Два разных мира под две разные задачи, и это правильно: не надо заставлять одну базу быть и операционной, и аналитической одновременно. Вопрос в том, кто эти миры соединяет. У Netflix это Casspactor - такой ETL мост. Работа у него не геройская: взять то, что лежит в Cassandra, и материализовать в Iceberg, чтобы аналитика работала с копией и не трогала боевые ноды. И вот это, по-моему, и есть та часть, которую все пролистывают. Хочется обсуждать устройство движка, а сама постановка задачи - «дай свежую аналитическую копию, не уронив прод» - нужна почти любой компании, у которой больше одного контура данных. https://netflixtechblog.medium.com/the-evolution-of-cassandra-data-movement-at-netflix-6e13329c80a1

Из этого канала