"Мы редко ""говорим"" о базовых вещах в работе с данными. Вот, например, давайте вспомним про модели структуры данных в классическом хранилище? Никто эту задачу не отменял, мы как и раньше каждый день занимаемся развитием классических реляционных структур и укладываем в них данные для аналитики. И есть ряд ""классических"" подходов к разработке таких структур: • Dimensional modeling (звёздная/снежинка): факт + измерения, денормализация ради скорости и простоты BI; хорошо для Gold‑слоя в медальонной архитектуре. • Data Vault (Hubs/Links/Satellites): ориентация на интеграцию, историзацию, аудит и гибкость схем; оптимален для Silver‑слоя, далее трансформируется в витрины. • One Big Table (OBT): максимально денормализованная «широкая» таблица для критически быстрых дашбордов/ML‑фич, жертвуя гибкостью. • Кубы/материализованные представления: предрасчёт агрегатов и кеширование для ускорения сложных разрезов. и тд Вот интересная статья которая показывает, что спор «что лучше — Data Vault или dimensional modeling» бессмысленен: эти подходы решают разные задачи на разных этапах. Автор предлагает практический шаблон в рамках medallion architecture: в слое Silver использовать Data Vault для гибкой интеграции, историзации и аудита, а в слое Gold — звёздные схемы для быстрого, понятного анализа и стабильной семантики бизнес‑метрик. Интересно тут то, что подробно разбираются реальные компромиссы — гибкость vs производительность, техники мостинга Silver→Gold (PIT/Bridge, управление суррогатными ключами, SCD Type 2, инкрементальные загрузки), а также организационные практики: метаданные‑драйв, CI/CD, разделение команд и роль семантического слоя. Это даёт применимый чертёж масштабируемой, аудируемой и быстрой платформы без «серебряных пуль». https://www.dataengineeringweekly.com/p/revisiting-medallion-architecture-760"
"Мы редко ""говорим"" о базовых вещах в работе с данными. Вот, например,…
Из этого канала
- #2526Последние сбои в AWS, которые на прошлой неделе затронули крупнейшие сервисы,…
Последние сбои в AWS, которые на прошлой неделе затронули крупнейшие сервисы, снова подняли старую дискуссию — что лучше: собственная инфраструктура или…
- #2527Уже сегодня, 31 октября, в 20:00 пройдет финальный эфир «Дропнуто» — шоу о…
Уже сегодня, 31 октября, в 20:00 пройдет финальный эфир «Дропнуто» — шоу о фейлах на дата-платформах Гость — Василий Меньшаков, который строил в Х5 платформу…
- #2528Думаю что многие наблюдают за экспериментом, в котором LLM моделям дали по 10…
Думаю что многие наблюдают за экспериментом, в котором LLM моделям дали по 10 000 долларов и попросили заработать торговлей на крипте.
- #2524«95% компаний не получают отдачи от инвестиций в GenAI» Это – ключевой тезис…
«95% компаний не получают отдачи от инвестиций в GenAI» Это – ключевой тезис недавнего отчета MIT. Первая реакция ожидаема: «GenAI не приносит пользы».
- #2523Дайджест статей Модель данных для успешного бизнеса: от простоты к компромиссам…
Дайджест статей Модель данных для успешного бизнеса: от простоты к компромиссам Статья рассказывает о том, как выбор и развитие модели данных влияет на…