Краткий обзор платформы данных Т-Банка (Рубрика #Data) Прочитал интересную статью от коллег про про нашу data platform. Если обобщать достаточно длинную статью, то можно отметить, что платформа данных Т-Банка эволюционировала более 18 лет, следуя общеотраслевым трендам. Компания постепенно отходила от классических концепций хранилищ данных по Инмону и Кимбеллу в сторону Data Lake, а затем — к современным Lakehouse-архитектурам. Платформа сейчас обслуживает более 17 тысяч пользователей и обрабатывает свыше 144 млн запросов в месяц, что требует постоянного развития масштабируемости и производительности. Текущая архитектура включает 19 ключевых систем, которые обеспечивают полный жизненный цикл работы с данными — от сбора до визуализации и обеспечения безопасности. Вот как они сгруппированны 1. Сбор и транспортировка данных - Data Replication: BODS (legacy) и Chrono для пакетной и потоковой репликации - Event Sourcing: SDP (Streaming Data Transfer Platform) на основе принципов Data Mesh - Reverse ETL: Spheradian для возврата данных в операционные системы с латентностью до 100 мс 2. Хранение данных - Data Warehouse: GreenPlum как основная СУБД (15 кластеров, 1,7 ПБ данных) - LakeHouse: Spark/Trino + S3 с несколькими вычислительными движками - Real-Time Analytics: ClickHouse для быстрой аналитики на больших таблицах 3. Обработка и трансформация - Streaming Processing: Unicorn (на Apache Flink) и NiFi - Workflow Management: TEDI (на Apache Airflow) и Moebius для оркестрации - Analytics Tools: Proteus (на Apache Superset) для дашбордов и Helicopter для совместной работы 4. Управление данными - Data Discovery: Data Detective для поиска и каталогизации - Data Governance: Data Contracts для управления поставками данных - Data Observability: DQ Tools для контроля качества и Data Incident Management - Data Security: SLH для управления доступом к чувствительным данным Если хочется узнать больше, то можно почитать статью и позадавать вопросы в комментариях. #Data #Database #Architecture #Software #Engineering #PlatformEngineering
Краткий обзор платформы данных Т-Банка (Рубрика #Data) Прочитал интересную…
Из этого канала
- #5310https://www.ssp.sh/brain/data-engineering-toolkit/ Очередной сборник всяких там…
https://www.ssp.sh/brain/data-engineering-toolkit/ Очередной сборник всяких там ресурсов и инструментов для DE. От которого ни холодно ни жарко, но красиво.
- #5311Сегодня выступил удаленно на митапе Юmoney в Питере про dbt, презентация…
Сегодня выступил удаленно на митапе Юmoney в Питере про dbt, презентация…
- #5313В комментарии к прошлому посту был вопрос: В ETL-процессе на стадии Transform…
В комментарии к прошлому посту был вопрос: В ETL-процессе на стадии Transform имеем много DAG’ов с большой Python-логикой, основанной на Pandas, внутри от…
- #5300Лето у членов сообщества surfalytics прям выдалось очень ударным! Люди получили…
Лето у членов сообщества surfalytics прям выдалось очень ударным! Люди получили оферы, удвоили доход или просто нашли свою первую реальную работу за достойную…
- #5298Гайд ролей BI разработчиков в Amazon
Гайд ролей BI разработчиков в Amazon