"Инсайды из «Разговоров на архитекторском» с Вадимом Беловым, Head of DMP X5. Про хранилища данных 1️⃣ Зрелое хранилище - это когда процессы-потребители данных ходят в ХД напрямую, минуя этап обратного ETL, загрузки данных батчами из подготовленных витрин куда-то в отдельную продовую систему. 2️⃣ Много разнородных потребителей - это реальность современного развитого ХД, с высокой ожидаемой ценностью для бизнеса. Проблема роста - в росте количества и разнообразия потребителей в большей степени, чем в объеме данных. 3️⃣ Стриминг и суб-минутные / секундные прогрузки данных: 10 лет назад мечта, сегодня - реальность и необходимость. 4️⃣ Транзакционность в аналитической системе - упрощает код, упрощает и ускоряет работу дата инженеров, понижает требуемую квалификацию дата инженера. Очень приятно работать со сложной системой так, будто это классическая СУБД с транзакциями. Про лейкхаус 1️⃣ Ключевая технология, отличающая Lake и LakeHouse - формат данных и транзакционность. 2️⃣ Лейкхаус помогает убрать ненужные перегрузки данных из системы в систему. Причем надо понимать, что каждая продовая переливка из А в Б это а) стейджинговые и промежуточные слои, многократное дублирование данных, б) код, в) команда, которая поддерживает код и пайплайны, г) доп нагрузка на чтение в А и запись в Б. Если можно этого не делать, то получаем огромную экономию в лонг-ране. 3️⃣ «Старый» стек (Greenplum + Hadoop, + Clickhouse + …) - зоопарк. Лейкхаус - тоже зоопарк. Нельзя уйти от зоопарка технологий, но можно выбрать зоопарк себе по вкусу, в котором приятнее жить. 4️⃣ Развитие технологий спиральное. Сейчас виток разделения вычислений и хранения, рано или поздно сольемся обратно. Но текущий тренд - разделение. 5️⃣ Точно будем пилить свой мета-каталог. Опен-сорсные не устраивают по своей зрелости. 6️⃣ Тренд - умные метакаталоги. Нужен развитый RBAC на уровне каталога. Нужны умные метаданные, развитые кеши данных и мета-данных. Нужны элементы дата-гавернанс на уровне мета-каталога. Дата контракты на уровне метастора - в Gravitino уже есть. Про экономику данных и миграцию 💯 Первые 100 ТБ мигрировали с Data Vault в Greenplum на Data Vault в Lakehouse за 1-2 месяца. 2️⃣ Лейкхаус дает больший оверхед на старте по железу, большие требования к сети. Но это окупается за счет того что одна команда работает со всеми юз-кейсами данных. Выгоднее купить больше железа, но обойтись одной командой разработки, одним релизным процессом, одной проверкой качества и т.д. 3️⃣ Также получаем более дешевое и быстрое развитие по росту объема и сложности данных. И технологическую модульность. 4️⃣ Эффективен путь RnD и пилотов. Пробуйте в облаках, где много готовых сервисов от многих вендоров. Пробуйте у себя на железе - для грамотного ДевОпса развернуть лейкхаус из доступных компонентов - тривиальная задача 5️⃣ Тестируйтесь на своих данных и своих задачах перед внедрением. Любые попугаи публичных тестов нерелевантны. ----------------------------- Запись ""Разговоров"" ----------------------------- Архитектор данных -----------------------------"
"Инсайды из «Разговоров на архитекторском» с Вадимом Беловым, Head of DMP X5.…
Из этого канала
- #204"ИИ Разбор ""Диалогов"" Разбор записи с помощью OpenSource AI модели. Это не…
"ИИ Разбор ""Диалогов"" Разбор записи с помощью OpenSource AI модели. Это не могучий ChatGPT или Gemini, а модель, развернутая на ВМ с Видеокартой в облаке.
- #205Ребенок ИИ уже достаточно вырос и окреп. Он уже получил начальный заряд знаний.…
Ребенок ИИ уже достаточно вырос и окреп. Он уже получил начальный заряд знаний. Дальше справится сам. Репост:
- #206Демис Хассабис такой говорит: «Я не беспокоюсь о том, что закончится…
Демис Хассабис такой говорит: «Я не беспокоюсь о том, что закончится качественная человеческая информация.
- #201"Запись стрима ""Разговоры на Архитекторском"" с Вадимом Беловым, X5.…
"Запись стрима ""Разговоры на Архитекторском"" с Вадимом Беловым, X5. ----------------------------- Архитектор данных -----------------------------"
- #198Мы обещали провести прямой эфир про Data Lakehouse с экспертами? Мы его…
Мы обещали провести прямой эфир про Data Lakehouse с экспертами? Мы его проводим. 23 июля в 17:00 присоединяйтесь к трансляции прямо в Telegram.