Аналитические базы выступают в роли общего хранилища, куда стекаются данные из различных подсистем. Это могут быть OLTP базы, а также внешние сервисы (данные из которых можно тянуть по API, например). Процесс насыщения данными обозначают аббревиатурой ETL - Extract Transform Load. Но существует и другая аббревиатура ELT - Extract Load Transform. В первом случае трансформация данных происходит до загрузки в главное хранилище, а во втором уже на стороне хранилища (хранение в “сыром” виде). Также есть процесс reverse ETL, это обратный процесс, когда данные из аналитической базы попадают в транзакционное хранилище. Например, такое практикуется при построении моделей машинного обучения и деплоя их в продакшн. HTAP Существуют и гибридные базы данных HTAP - Hybrid Transactional/Analytical Processing. Они сочетают в себе сразу 2 типа системы: транзакционное и аналитическое хранилище. Мотив простой: объединить всё в одну систему и исключить промежуточные процессы по загрузке данных из других систем. Я накопал пример такой БД: TiDB от PingCap. Не думаю, что основная цель таких БД заменить главное аналитическое хранилище, скорее решить специфическую задачу, где критически важно быстро обрабатывать операционные и аналитические запросы сразу без промежуточных этапов. Data Lakes Хранилище неструктурированных данных. Если OLTP и OLAP предъявляют требования по организации и хранению данных, то Data Lakes это своего рода помойка, где данные могут лежать в любом формате и виде: текстовые файлы, бинарные данные, данные в форматах по типу Parquet или Avro.
Аналитические базы выступают в роли общего хранилища, куда стекаются данные из…
Из этого канала
- #677Данные и законодательство С развитием GDPR, CCPA, ,EU AI Act и прочих…
Данные и законодательство С развитием GDPR, CCPA, ,EU AI Act и прочих законодательных норм и правил по персональным данным появилась необходимость учитывать…
- #678Cloud vs Self-Hosted Вечная дилемма что выбрать: использовать облачные сервисы…
Cloud vs Self-Hosted Вечная дилемма что выбрать: использовать облачные сервисы или всё развернуть на своих серверах. Это снова вопрос компромиссов.
- #679Mastering PostgreSQL Supabase и Manning Publications выпустили бесплатную книгу…
Mastering PostgreSQL Supabase и Manning Publications выпустили бесплатную книгу про PostgreSQL.
- #675Designing Data-Intensive Applications Глава 1. Trade-Offs in Data Systems…
Designing Data-Intensive Applications Глава 1. Trade-Offs in Data Systems Architecture Введение Первая глава книги получилась объёмной как по количеству…
- #674"Второе издание ""кабанчика"" На днях увидел в сети анонс, что вышло новое…
"Второе издание ""кабанчика"" На днях увидел в сети анонс, что вышло новое издание легендарной книги Designing Data-Intensive Applications.