👍 Обновляю Пет Проект! Неплохо так пересобрал свой ETL pipeline и теперь там есть Streaming + Batch. Это я собираю новую архитектуру с этого стрима и скорее всего она и будет в БУТКЕМПЕ в итоге! На какой стадии сейчас: 🔵 В postgres автоматически наполняются таблицы + сами обновляют строки. Debezium считывает все изменения и закидывает в Kafka. Оттуда уже Spark Streaming льет в S3 бакет и раскладывает по партициям. Настроены heartbeat + signal таблицы. 🔵Почти тоже самое со второй таблицей, но уже настроен просто забор данных батчом. 🔵Появились prometheus и grafana для отслеживание метрик (но пока еще не настроил) 🔵Автоматизировал создание БД и табличек на стадии docker-compose (чтобы все ставилось с одной кнопки) 🔵Хранилище в реальном MinioS3 (раньше просто сохранялось в файловую систему) Хочу сделать: 🔵 Добавить слои clean и mart в S3(сейчас только raw слой) 🔵 Написать spark джобы для построения витрин и складывания их в Clickhouse 🔵 Переписать старые airflow dags на новую архитектуру 🔵 Добавить Trino от CedrusData (у них есть free docker image) 🔵 Добавить Iceberg, либо продумать иной вариант обновления строк Эта версия пока доступна в соседней веткеКто хочет, может внести свои правки и идеи, если есть желание. Более менее финальную версию дропну позже.