Смотрим Iceberg Summit 2025 - Часть 2 Сегодня видео с громким названием Fully managed Streaming Data Lake in the Iceberg, но именно здесь я сэкономил вам время, потому что 2/3 доклада это маркетинговый питч продукта RedPanda. RedPanda - интересный продукт из мира стриминга, и здесь они много говорят о добавленной интеграции с айсбергом и как они хорошо решают задачи построения Стрим-Хауса там где стандартные методы Kafka-Connect-Sync справятся хуже. Техническая часть короткая по времени, но все равно любопытная. Ее можно смотреть с 19:28 Можно использовать как быстрый чек-лист - а как мы будем решать вот эти проблемы, когда с ними неизбежно столкнемся при построении StreamHouse Что сделали инженеры Redpanda, их заявка на успех 🔬 Exactly Once доставка данных из топика RedPanda в таблицу Iceberg 🔬 Где Kafka + Kafka Connect это два отдельных сервиса, которые могут рассинхронизироваться с неприятными последствиями, в экосистеме RedPanda это одна система. Она и работает в режиме брокера, и синхронно заливает данные в хранилище Айсберг 🔬 Кросс-партиционирование. В одной точке задаем, как в итоге должна выглядеть партиционированная таблица для Айсберга, и RedPanda сама адаптируется под эти требования к разбиению данных 🔬 Есть трейд-офф между а) лагом между таблицей и топиком и б) размером итоговых паркетов и манифестов у айсберга. Мы можем писать часто и за счет этого минимизировать лаг, но тогда итоговые манифесты и паркеты будут маленькие. RedPanda утверждает, что в их системе этот трейд-офф можно задавать на уровне каждого стрима данных 🔬 Реализация Dead Letter. На тот случай, если по какой-то причине данные невозможно записать в Айсберг, есть отдельное чистилище для таких сообщений и данных. Почему нельзя записать? Потому что устаревшая схема, ошибки сериализации и т.д. Айсберг строго типизированный и если договорились, что число, то там должно быстро строго число, а если приехала строка, то фейл. Вот эти фейловые строки хорошо куда-то складывать для прозрачности и возможности дальнейшего процессинга, а не просто получать молча пропуски в данных. 🔬 Очень кратко заявили про сквозной менеджмент схем. Он совместим с Kafka Registry - на этом все 🔬 Очень кратко про совместимость в Iceberg Catalog. Совместим с REST. Дифирамбы совместимости с Snowflake, шпилька в сторону BigQuery. Сразу видно, с кем дружат и с кем нет Ода продукту RedPanda 🐼 Drop-In Replacement для Kafka. Совместима с Kafka API 🐼 Быстрее, так как C++ и Raft Consensus 🐼 Более богатый набор фичей для построения пайплайнов, LowCode Yaml преобразования и джойны данных 🐼 Переписанный на C++ движок с логикой 1 поток на 1 ядро 🐼 Raft Consensus 🐼 Собственные либы для работы с форматами ProtoBuf, AVRO, Parquet и схемами всех этих форматов Видео с тайм-кодами постом ниже или на ВК Видео. Оригинал на Ютубе. Часть 1 - Разбор нововведений Iceberg v3 ------------------------------------ ------ Архитектор данных ------- ------------------------------------
Смотрим Iceberg Summit 2025 - Часть 2 Сегодня видео с громким названием Fully…
Из этого канала
- #38900:00 - Ода продукту RedPanda. 05:46 - RedPanda Iceberg Topics. Topic-Table…
00:00 - Ода продукту RedPanda. 05:46 - RedPanda Iceberg Topics. Topic-Table интеграция 08:21 - StreamHouse - что это? 15:58 - StreamHouse as a Service 19:28 -…
- #390Вдогонку немного старая, но вряд ли утратившая актуальность статья про RedPanda…
Вдогонку немного старая, но вряд ли утратившая актуальность статья про RedPanda https://habr.com/ru/articles/746138/ Основной вывод - в скрине.
- #391О, это мы можем, знаем практикуем. Считайте, что я дата-сомелье
О, это мы можем, знаем практикуем. Считайте, что я дата-сомелье
- #387Вот и закончилась первая четверть XXI века. С праздником, дорогие. Спасибо что…
Вот и закончилась первая четверть XXI века. С праздником, дорогие. Спасибо что вы здесь.
- #38600:45 - Собираем конференцию по формату данных - серьезно? 01:25 - Зачем нужен…
00:45 - Собираем конференцию по формату данных - серьезно? 01:25 - Зачем нужен формат Iceberg 10:57 - Новый тип данных: Гео (Geospatial) 13:44 - Variant тип…