Крутой пример типичной задачи для Дата Инженера! Есть два ~~стула~~ датасета… — @halltape_data

Крутой пример типичной задачи для Дата Инженера! Есть два ~~стула~~ датасета формата XML. Один 60Гб, другой 400Мб. Надо взять последние 2 года из первого и сджойнить со вторым. В чем сложности? 60 гигов в формате XML это просто один большой кусок файла. Он не разбит на партции, не имеет в комплекте готовую схему данных + внутри некоторые значения полей могут быть не совсем валидны (в поле год, может стоять не дата, а номер). С файликом в 400Мб все ок, он без дубликатов и с хорошим качеством - ну это считайте словарик. Я описал в roadmap этот пет проект, можете смело брать и тестировать, реально коммерческий пример сборки витрины данных. Что уже есть внутри: - Пример кода для сборки витрин на PySpark - Пример чтения XML и сохранения в parquet - Уже готовый датасет в формате parquet ➡️ еще раз, вот ссылка на пет проект - Проект №5 - Сборка витрины на Spark ——- P.S. кстати, если хотите сказать спасибо roadmap, то вот ссылка

Крутой пример типичной задачи для Дата Инженера! Есть два стула датасета…

Из этого канала