👍 Обновляю Пет Проект! Неплохо так пересобрал свой ETL pipeline и теперь там есть Streaming + Batch. Это я собираю новую архитектуру с этого стрима и скорее всего она и будет в БУТКЕМПЕ в итоге! На какой стадии сейчас: 🔵 В postgres автоматически наполняются таблицы + сами обновляют строки. Debezium считывает все изменения и закидывает в Kafka. Оттуда уже Spark Streaming льет в S3 бакет и раскладывает по партициям. Настроены heartbeat + signal таблицы. 🔵Почти тоже самое со второй таблицей, но уже настроен просто забор данных батчом. 🔵Появились prometheus и grafana для отслеживание метрик (но пока еще не настроил) 🔵Автоматизировал создание БД и табличек на стадии docker-compose (чтобы все ставилось с одной кнопки) 🔵Хранилище в реальном MinioS3 (раньше просто сохранялось в файловую систему) Хочу сделать: 🔵 Добавить слои clean и mart в S3(сейчас только raw слой) 🔵 Написать spark джобы для построения витрин и складывания их в Clickhouse 🔵 Переписать старые airflow dags на новую архитектуру 🔵 Добавить Trino от CedrusData (у них есть free docker image) 🔵 Добавить Iceberg, либо продумать иной вариант обновления строк Эта версия пока доступна в соседней ветке ✅ Кто хочет, может внести свои правки и идеи, если есть желание. Более менее финальную версию дропну позже.
👍 Обновляю Пет Проект! Неплохо так пересобрал свой ETL pipeline и теперь там…
Источник
https://t.me/halltape_data/575Канал Я – Дата Инженер | Евгений Виндюков · опубликовано 11 мая 2025 г.
Из этого канала
- #576Запуск буткемпа! Вообще, основная цель буткемпа — оффер через 3 месяца И для…
Запуск буткемпа! Вообще, основная цель буткемпа — оффер через 3 месяца И для этого совсем не нужно учить весь Python или проходить тонну теории, как на курсах.
- #582🐯 Ищем Data-инженера в Outlines Tech Outlines Tech — аккредитованная…
🐯 Ищем Data-инженера в Outlines Tech Outlines Tech — аккредитованная IT-компания и технологический партнёр для бизнеса.
- #587Какой комп лучше? Ваш комп не будет запускать расчеты локально, поэтому…
Какой комп лучше? Ваш комп не будет запускать расчеты локально, поэтому достаточно, чтобы тянул несколько открытых Pycharm, dbeaver, docker и много вкладок…
- #574Сколько можно лезть к нам в DE? Видео создано исключительно в юмористических…
Сколько можно лезть к нам в DE? Видео создано исключительно в юмористических целях и не несет под собой цели ввести вас в заблуждение
- #572⚡️Анализируем продажи на Wildberries с помощью Python С каждым днем все больше…
⚡️Анализируем продажи на Wildberries с помощью Python С каждым днем все больше бизнесов выходят на маркетплейсы, а значит еще более ценными становятся…