Решил залить одно из фундаментальных видео по Айсбергу за последнее время. Докладывает Райан Блу (Ryan Blue), один из создателей формата Айсберг и судя по линкед-ину сотрудник Data Bricks. Видео открывает Iceberg Summit 2025 в апреде этого года и содержит описание нескольких фундаментальных изменений, которые ждут нас в формате Iceberg v3. Самые фундаментальные изменения в Iceberg v3: 1️⃣ Оптимизация удалений, Delete Vectors. Сейчас в нагруженных таблицах, в которых много DELETE, UPDATE, MERGE накапливаются цепочки из множества delete файлов и манифестов. Натруально сотни и тысячи мелкий паркетов на 1 ГБ data файл. Оптимизация этого процесса - DV, который кстати уже применяется в Apache Paimon 2️⃣ VARIANT тип данных. Считаем что это такая Java-Parquet-Iceberg вариация JSON. То есть нам больше не придется писать JSON в строки и отдельно думать как это потом десериализовывать. Также, если формат вписан в айсберг, то сам формат сможет собирать по нему статистику: наличие/отсутствие полей, характерные значения, диапазоны суб-значений, сортировать по полям и т.д. То же самое, но для меня менее интересно - ГеоФормат. 3️⃣Row_id. Привет, ораклистам. Как насчет точно знать что вот это вот она, моя строка и в каком последнем снапшоте она последний раз менялась. Сколько сразу мыслей, как это облегчит многие процессы. Отдельная благодарность за то, что недостатки айсберга активно признаются - это я про не всегда эффективную метадату. И придумываются способы ее улучшить в будущем - это уже Iceberg v4 Видео на английском, я отрезал из него приветствия и завершение и добавил русскоязычные тайм-коды. Посмотреть можно либо ниже в канале, либо перезалив на ВК, либо оригинал на YT. Ставьте 🔥, если хотите больше таких разборов или даже видео-разбора докладов от меня на русском языке. ----------------------------------- ------ Архитектор данных ------- -----------------------------------
Решил залить одно из фундаментальных видео по Айсбергу за последнее время.…
Из этого канала
- #38600:45 - Собираем конференцию по формату данных - серьезно? 01:25 - Зачем нужен…
00:45 - Собираем конференцию по формату данных - серьезно? 01:25 - Зачем нужен формат Iceberg 10:57 - Новый тип данных: Гео (Geospatial) 13:44 - Variant тип…
- #387Вот и закончилась первая четверть XXI века. С праздником, дорогие. Спасибо что…
Вот и закончилась первая четверть XXI века. С праздником, дорогие. Спасибо что вы здесь.
- #388Смотрим Iceberg Summit 2025 - Часть 2 Сегодня видео с громким названием Fully…
Смотрим Iceberg Summit 2025 - Часть 2 Сегодня видео с громким названием Fully managed Streaming Data Lake in the Iceberg, но именно здесь я сэкономил вам…
- #384Продолжаем итоги года. Тут меня жарит нейросеть, причем по делу.
Продолжаем итоги года. Тут меня жарит нейросеть, причем по делу.
- #383Пока не совсем понимаю, зачем мне это, но, пожалуй, запишу в итоги года. Так…
Пока не совсем понимаю, зачем мне это, но, пожалуй, запишу в итоги года. Так что зовите на конференции и в гости - прилечу. Бизнес-классом 😁