Пример data stack в компании Clair. Взял у них в Linkedin. Очень стандартный и… — @rockyourdata

Пример data stack в компании Clair. Взял у них в Linkedin. Очень стандартный и понятный кейс. Если сравнить с РФ кейсом, то на российском рынке нет 3rd party managed продуктов для ETL, BI, DW. Ну как нет, они-то есть, но всегда возникает вопрос, а где хостить? А где хранить данные? Вроде бы облаком можно отечественным, но вот много всяких НО. Поэтому по опыту общения с коллегами вижу два основных направления: 1) полностью on-premise так, где может быть Hadoop+HDFS+Spark, Greenplum или Clickhouse. Все остальное для слоя хранения редко и не обычно. Есть еще множество старых и надежных решений на SQL Server. Для загрузки данных используют Python и запускают его в Airflow, иди стрим через Kafka. 2) компании по смелей или по меньше уже могут идти в облака и строить там аналитические решения на VK, Ya облаках. Причем у них есть отличная возможность хостить все на Managed Kubernetes, чтобы развернуть Airbyte, Metabase, Trino и тп. Такой кейс будет очень похож на западный, но выбор инструментов будет достаточно скуден и устоявшийся На западе наоборот все, мы сначала выбираем public cloud - AWS, Azure, GCP. Затем выбираем слой хранения (Snowflake, Databricks, Trino, Athena, Synapse, BigQuery) и потом уже решаем как туда загружать данных и как их визуализоровать. Как правило все инструменты отлично поддерживают кейсы для ML, Streaming, Reverse ETL. Еще кардинальная разница будет в DevOps и Data Observability. На западе очень много решений на любой вкус и цвет и все они стандартизированы и работают с любым из публичных облаков. Поэтому в зависимости от ваших карьерных целей, ваш road map может отличаться.

Из этого канала