Само решение достаточно не сложное, данные все хранятся в AWS S3 в Parquet. Другая команда использует kinesis и пишет в S3. Данные каждый час обрабатываются с помощью Athena и запускается в Glue Python Shell (даже не PySpark). Результат складывается в другой S3 bucket и дальше он проверяется с помощью другого Glue Job. Все метрики публикуются в Cloud Watch. Cloud Watch подключен через SNS topic к Pager Duty, и в случае отклонения получаем alert в Slack. Сейчас решение мигрируется в Databricks, таблицы переходят с Parquet на managed delta tables (Parquet + Delta log). Для проверки качества данных используем DBX библиотеку. Самое забавное, цена в Databricks получается значительно дороже, чем в Glue Athena. В качестве оркестратора AWS Managed Airflow.
Само решение достаточно не сложное, данные все хранятся в AWS S3 в Parquet.…
Из этого канала
- #5354Тут не только LinkedIn, даже все телеграмм каналы про ИТ👀
Тут не только LinkedIn, даже все телеграмм каналы про ИТ👀
- #5356MWS Cloud запустила платформу для внедрения и работы ИИ, выйдя на рынок объемом…
MWS Cloud запустила платформу для внедрения и работы ИИ, выйдя на рынок объемом более 15 млрд рублей.
- #5357Пример data stack в компании Clair. Взял у них в Linkedin. Очень стандартный и…
Пример data stack в компании Clair. Взял у них в Linkedin. Очень стандартный и понятный кейс.
- #5349"Data Observability относится к data engineering, и является его неотъемлемой…
"Data Observability относится к data engineering, и является его неотъемлемой частью, согласно best practices, конечно.
- #5348Ох gpt5 здесь, чтобы всех нас заменить 🦯
Ох gpt5 здесь, чтобы всех нас заменить 🦯