Delete Vectors - фича Iceberg v.3 Продолжим традицию разборов и перезаливов хороших докладов с Iceberg Summit. Это англоязычные видео, к которым я добавил русские таймкоды, так что можно посмотреть самую суть, отфильтровав маркетинговый буллшит. Одна из больших проблем формата айсберг - раздувание хранилища очень большим количеством (миллионами!) delete файлов. Delete файлы в айсберге версии 2 - это Паркеты/ОРКи, в которых содержится информация о том, что некоторые строки (или некоторые условия-предикаты) из основных дата-файлов читать не нужно. По сути каждая операция на DELETE/UPDATE/MERGE создает их в огромном количестве. В результате таблицы превращаются в нечитаемое месиво, а операции поддержки занимают часы. В Iceberg v3 предложено решение этой проблемы: специальные файлы Delete Vectors, которые материализуются в puffin файлы в хранилище айсберга, и в которых плотно и компактно упакованы удаления. Таким образом, в формате айсберг становится 5 (!) типов файлов JSON - для корневых метаданных AVRO - для манифестов STATS - для статистики PARQUET/ORC - для собственно данных PUFFIN - для удалений Это все еще одна таблица! Докладчик - Антон Окольничий, доклад на английском —————————————————————————- Посмотреть с таймкодами - ВК Видео Предыдущие перезаливы в плейлисте на ВК Попишитесь на канал с Видео - и получать уведомления о начале стримов. На следующей неделе очень интересный стрим о примении ИИ - не пропустите! Предыдущий разбор видео на канале - Владимир Озеров о перспективах Айсберга.
Delete Vectors - фича Iceberg v.3 Продолжим традицию разборов и перезаливов…
Из этого канала
- #533Delete Vectors - Iceberg v3 Описание - выше Таймкоды: 01:00 - Текущие механизмы…
Delete Vectors - Iceberg v3 Описание - выше Таймкоды: 01:00 - Текущие механизмы удаления данных в Iceberg v2 03:48 - Разные типы deleteфайлов - Partition Scope…
- #534Занятный график. Люди очень любят круглые числа. Пробежать марафон за 3:59…
Занятный график. Люди очень любят круглые числа. Пробежать марафон за 3:59 сильно лучше чем за 4:01.
- #535Любите такие картинки? Архитектура в карточках ~~для самых маленьких~~.
Любите такие картинки? Архитектура в карточках ~~для самых маленьких~~.
- #531"Многие спрашивают, хочу прокомментировать новость со своей стороны. Мердж…
"Многие спрашивают, хочу прокомментировать новость со своей стороны. Мердж произошел на уровне компании. Продукт и разработка Cedrus становятся частью VK Tech.
- #530CedrusData присоединяется к направлению дата-сервисов VK Tech Теперь в едином…
CedrusData присоединяется к направлению дата-сервисов VK Tech Теперь в едином решении: ️⃣VK Data Platform — lakehouse-платформа ️⃣S3-совместимое хранилище VK…