"DuckDB предложил очень интересную альтернативу - DuckLake: SQL as a Lakehouse Format Что это значит? Если мы откатимся назад и повторим эволюцию аналитических решений - от классического хранилища данных до современного Lakehouse, можно выделить основные этапы: - Data Warehouse (Хранилище данных) - хранение и вычисления происходят на одном физическом/виртуальном сервере или кластере. - Data Lake (Озеро данных) - происходит разделение хранения и вычислений. - Lakehouse - гибрид Data Lake и Data Warehouse. Ключевой элемент - формат таблиц (Iceberg, Delta, Hudi), который добавляет возможности управления изменениями в data lake. Эти форматы используют сложные файловые структуры (JSON, Avro) для отслеживания версий и схем. Сегодня на рынке представлен широкий спектр инструментов и тесная интеграция между подходами. Любое решение - это всегда компромисс. Выбор зависит от бюджета, возможностей и экспертизы команды и т. д. У Lakehouse есть важный недостаток - сложности с обеспечением атомарности операций и управлением несколькими таблицами, а также ряд других проблем. Те, кто строил Iceberg-архитектуру, могут поделиться своими ограничениями и трудностями. DuckLake предлагает альтернативный подход: вся метаинформация (каталоги, схемы, версии) хранится в стандартной SQL-базе данных, поддерживающей ACID-транзакции и первичные ключи. Это позволяет: - Обеспечить надежное и простое управление метаданными. - Поддерживать транзакции, охватывающие несколько таблиц. - Избежать сложностей, связанных с согласованностью в blob-хранилищах. При этом данные продолжают храниться в открытых форматах, таких как Parquet, что обеспечивает совместимость и гибкость. То есть метаданные ""уходят"" в DuckDB - в SQL-таблицу, которая и используется в качестве каталога. Вот такое элегантное решение. Кстати, ниша managed duckdb в публичных облаках свободна🍸 PS В Surfalytics мы делали пару проектов про DuckDB и даже есть урок в основном курсе: Just enough DuckDB for Data Analyst | Module 2.7 | Surfalytics И в datalearn у нас был классный обзор от Романа Зыкова: Разработка data приложений на DuckDB"
"DuckDB предложил очень интересную альтернативу - DuckLake: SQL as a Lakehouse…
Из этого канала
- #5236Как ВЫЙТИ из IT и стать счастливым? Владислав Князев, тимлид из финтеха,…
Как ВЫЙТИ из IT и стать счастливым? Владислав Князев, тимлид из финтеха, искренне и с жизнелюбием пишет про путь от выгоревшего айтишника в надежного…
- #5237Бодрая неделька выдалась, столько новинок интересных. Ведь скоро Databricks и…
Бодрая неделька выдалась, столько новинок интересных. Ведь скоро Databricks и Snowflake Summit.
- #5238Вот такой сервис который сравнивает IT зарплаты из всего русского сегмента. Как…
Вот такой сервис который сравнивает IT зарплаты из всего русского сегмента. Как я понял, он пылесосит все открытые источники типа hh и сливает все в приятный…
- #5233Неожиданно! Главный SaaS CRM покупает old-school ETL вендер Informatica🤪…
Неожиданно! Главный SaaS CRM покупает old-school ETL вендер Informatica🤪 Компания Salesforce объявила о планах приобрести платформу управления данными…
- #5232Хочу вам напомнить про полезные ресурсы: 1) datalearn учебник, где на русском…
Хочу вам напомнить про полезные ресурсы: 1) datalearn учебник, где на русском есть 6,5 модулей про аналитику и инжиниринг данных и отдельный курс от Анатолия…