"How we built the Internal Data Warehouse at ClickHouse Довольно интересная статья только потому что описывает реальный кейс, с цифрами, с объемами данных и тд о том как команда ClickHouse сделала себе хранилище для сбора и обработки данных о работе облачного решения ClickHouse. То есть все данные по operation ClickHouse Could попадают в ClickHouse Cloud который находится у них в ClickHouse Cloud 🙂 Тем не менее: ⁃ Размер таблицы с данными о потреблении S3 bucket 1 table ~1 Gb per hour (нормально таки) ⁃ Ребята не используют ETL - то есть все данные загружаются как есть в staging в CH и там делаются трансформации уже между staging и ODS слоем с сэмлированием до одного часа ⁃ Слой raw data тем не менее это просто S3 ⁃ Из дополнительных систем - SuperSet для BI и Airflow для оркестрации загрузок ⁃ Для загрузки данных из S3 используются ClickHouse s3 table function ⁃ From the S3 bucket, data is inserted into the RAW layer in the database. This layer has the same table structure as the sources. ⁃ Очень интересный подход к “перезаливке” данных - “Большинство таблиц, которые мы используем в ClickHouse, используют движки ReplicatedReplacingMergeTree. Этот механизм позволяет нам не заботиться о дубликатах в таблицах - записи с одинаковым ключом будут удалены, и сохранится только последняя запись. Это также означает, что мы можем вставлять данные за один конкретный час столько раз, сколько потребуется - сохранится только последняя версия каждой строки. Мы также используем функцию ClickHouse ""FINAL"", когда таблица используется в дальнейших преобразованиях для достижения согласованности, чтобы, например, функция sum() не вычисляла строку дважды.” Также есть интересные детали и по организации работы с Airflow и организации безопасности и контроля доступов на уровне записей https://clickhouse.com/blog/building-a-data-warehouse-with-clickhouse"
"How we built the Internal Data Warehouse at ClickHouse Довольно интересная…
Из этого канала
- #2382Дайджест статей Федеративные возможности YDB: масштабируем разработку вместе со…
Дайджест статей Федеративные возможности YDB: масштабируем разработку вместе со студентами https://habr.com/ru/companies/yandex/articles/919120/ Эффективное…
- #2383Brawn GP Немного не о данных, но об инженерных гениях и стартапах На днях…
Brawn GP Немного не о данных, но об инженерных гениях и стартапах На днях побывал в музее Формулы 1 и увидел оригинальный болид команды Brawn GP — одного из…
- #2384Немного о буднях группы поддержки пользователей :)
Немного о буднях группы поддержки пользователей :)
- #2380Платформа Max от Vk| Ваше мнение очень важно! С 1 апреля 2025 года закон 41-ФЗ…
Платформа Max от Vk| Ваше мнение очень важно! С 1 апреля 2025 года закон 41-ФЗ серьезно изменил правила игры: госорганам, госкомпаниям, банкам, операторам…
- #2379Коллеги, очень нужна помощь - приминте, пожалуйста, участие в опросе. Нам очень…
Коллеги, очень нужна помощь - приминте, пожалуйста, участие в опросе. Нам очень важно понять объективную картину. Заранее спасибо!