"Интересный вопрос от подпичика. Мое мнение - тип хранилища не так важен. Может… — @analyticsfromzero

"Интересный вопрос от подпичика. Мое мнение - тип хранилища не так важен. Может быть и HDFS, может быть и корпоративная SAN блочка. Важнее - возможность разделить и независимо управлять сторажем и компьютом. Важнее - мультисервисный доступ к данным. N кластеров Trino/Hive и K кластеров Spark могут читать и писать в один датасет. Это ""лейковость"". Важнее - (квази)транзакционность и ACID-ность записи. Это ""варехаусность"". Тип контейнеризации (k8s, nomad, yarn), формат данных (iceberg, parquet), набор сервисов (Trino или Impala, Kafka или Flink), тип хранилища (блочка, объектное, hdfs) - более гибкие вопросы. Есть более удобные и менее удобные сервисы. В будущем появятся новые (замена Spark на что-то более легковесное?). Ответ на вопрос - если в хадуп добавить S3 протокол и даже Iceberg Catalog туда посадить - нет это не будет DLH. Все равно в этой парадигме нельзя(трудно) сделать N отдельных кластеров компьюта, K отдельных метасторов и гибко ими управлять."

Из этого канала