"Uber опять выкатил отличный пост. У них 16 000 датасетов и 10 петабайт в одном монолитном Hive-хранилище на Delivery. Классика: начинали с одного большого бакета, потому что так проще. Закончили - shared-fate outages, noisy neighbors, централизованная команда как единая точка отказа для всех DDL-операций и ACL-апдейтов, и ACL настолько широкие, что least privilege там даже не ночевал. Решение - федерация: разбить монолит на доменные и командные базы. Но не ""давайте перепишем всё с нуля"", а инженерно элегантный ход: pointer manipulation. Hive-датасеты - это по сути указатели на HDFS-локации. Uber это использует: копирует данные в новую локацию, верифицирует чексуммами через распределённый Spark-джоб, а потом просто переключает указатель в Metastore. Операция переключения - доли секунды. Zero downtime в буквальном смысле. Что отличает этот пост от типичного ""мы сделали миграцию"" - уровень операционной честности. Они описывают не только happy path, а всё остальное: backup-датасеты как точки отката, real-time синхронизатор на Flink + пул из 10 Piper-пайплайнов в standby для HMS-синхронизации, batch-синхронизатор каждые 2 часа как fallback, bidirectional sync который берёт последнее обновление с любой стороны и применяет к другой. Они явно говорят: eventual consistency — это design choice, а не баг. Отдельно - подход к data quality. Не ""запустили и надеемся"". Полный прогон всех партиций на идентичность source и target, и явное описание сценариев, когда проверка падает: TTL удалил партиции, кто-то сделал backfill, ETL добавил новые данные во время миграции. Решение — просто перезапустить мигратор. Система идемпотентна по дизайну. Результат: тысячи мигрированных датасетов, 7 миллионов операций синхронизации метаданных, и попутно освободили петабайт на HDFS за счёт очистки мёртвых данных. Вот это - реальный data engineering. Не манифесты и фреймворки на конференциях, а конкретные архитектурные решения с конкретными trade-off'ами, описанные людьми, которые это реально строили и эксплуатировали. Uber продолжает быть одним из лучших источников практического инженерного знания в индустрии. https://www.uber.com/us/en/blog/database-federation/"