Delete Vectors - фича Iceberg v.3 Продолжим традицию разборов и перезаливов хороших докладов с Iceberg Summit. Это англоязычные видео, к которым я добавил русские таймкоды, так что можно посмотреть самую суть, отфильтровав маркетинговый буллшит. Одна из больших проблем формата айсберг - раздувание хранилища очень большим количеством (миллионами!) delete файлов. Delete файлы в айсберге версии 2 - это Паркеты/ОРКи, в которых содержится информация о том, что некоторые строки (или некоторые условия-предикаты) из основных дата-файлов читать не нужно. По сути каждая операция на DELETE/UPDATE/MERGE создает их в огромном количестве. В результате таблицы превращаются в нечитаемое месиво, а операции поддержки занимают часы. В Iceberg v3 предложено решение этой проблемы: специальные файлы Delete Vectors, которые материализуются в puffin файлы в хранилище айсберга, и в которых плотно и компактно упакованы удаления. Таким образом, в формате айсберг становится 5 (!) типов файлов JSON - для корневых метаданных AVRO - для манифестов STATS - для статистики PARQUET/ORC - для собственно данных PUFFIN - для удалений Это все еще одна таблица! Докладчик - Антон Окольничий, доклад на английском —————————————————————————- Посмотреть с таймкодами - ВК Видео Предыдущие перезаливы в плейлисте на ВК Попишитесь на канал с Видео - и получать уведомления о начале стримов. На следующей неделе очень интересный стрим о примении ИИ - не пропустите! Предыдущий разбор видео на канале - Владимир Озеров о перспективах Айсберга.