"Интересный вопрос от подпичика. Мое мнение - тип хранилища не так важен. Может быть и HDFS, может быть и корпоративная SAN блочка. Важнее - возможность разделить и независимо управлять сторажем и компьютом. Важнее - мультисервисный доступ к данным. N кластеров Trino/Hive и K кластеров Spark могут читать и писать в один датасет. Это ""лейковость"". Важнее - (квази)транзакционность и ACID-ность записи. Это ""варехаусность"". Тип контейнеризации (k8s, nomad, yarn), формат данных (iceberg, parquet), набор сервисов (Trino или Impala, Kafka или Flink), тип хранилища (блочка, объектное, hdfs) - более гибкие вопросы. Есть более удобные и менее удобные сервисы. В будущем появятся новые (замена Spark на что-то более легковесное?). Ответ на вопрос - если в хадуп добавить S3 протокол и даже Iceberg Catalog туда посадить - нет это не будет DLH. Все равно в этой парадигме нельзя(трудно) сделать N отдельных кластеров компьюта, K отдельных метасторов и гибко ими управлять."
"Интересный вопрос от подпичика. Мое мнение - тип хранилища не так важен. Может…
Из этого канала
- #107Плейлист хороших видео про Лейкхаусы 1. Вебинар - Поднимаем Lakehouse на основе…
Плейлист хороших видео про Лейкхаусы 1. Вебинар - Поднимаем Lakehouse на основе Trino.
- #110"3 сценария развития дата офиса и зачем нам DLH в каждом из них. Все хорошо,…
"3 сценария развития дата офиса и зачем нам DLH в каждом из них. Все хорошо, мы развиваемся Главный вызов - рост челенжа.
- #111Спасибо всем, кто слушал онлайн и в зале. Обсудим в комментах
Спасибо всем, кто слушал онлайн и в зале. Обсудим в комментах
- #105И это тоже оказывается Лейкхаус. 😳
И это тоже оказывается Лейкхаус. 😳
- #104Lakehouse одним слайдом. На самом деле, вся идея в том, что мы берем развитие…
Lakehouse одним слайдом. На самом деле, вся идея в том, что мы берем развитие технологий SWE и привносим их в мир данных.