"В Spark 4.1 появлся ... Airflow В документации версии Spark 4.1-Preview появились так называемые Spark Declarative Pipelines (SDP) На борту: 1️⃣ Несколько видов датасетов: Материализованные, Стриминговые, Временные 2️⃣ Пайплайн как объект. Описывается через YAML файл с SQL, Python кодом и необходимыми конфигами Спарка. Также объявляется каталог (Hive, Iceberg), с которым можно взаимодействовать и в который складывать результаты. 3️⃣ Команда spark-pipelines init с интерфейсом и аргументами как у Spark Submit. Отдельная команда spark-pipelines run. Удобство Пример нового кода на PySpark, который читает Kafka топик и складывает данные в таблицу в каталоге. По сути это декларативное описание (не как-сделать, а что-сделать) а-ля DAG. from pyspark import pipelines as sdp @sdp.table def ingestion_st(): return ( spark.readStream.format(""kafka"") .option(""kafka.bootstrap.servers"", ""localhost:9092"") .option(""subscribe"", ""orders"") .load() ) К объявленной таким способом таблице можно обращаться дальше по пайплайну. На SQL и того проще CREATE STREAMING TABLE basic_st AS SELECT * FROM STREAM samples.nyctaxi.trips; Или пример с несколькими синками -- create a streaming table CREATE STREAMING TABLE customers_us; -- add the first append flow CREATE FLOW append1 AS INSERT INTO customers_us SELECT * FROM STREAM(customers_us_west); -- add the second append flow CREATE FLOW append2 AS INSERT INTO customers_us SELECT * FROM STREAM(customers_us_east); Осталось разобраться, как в этом всем провязаны семантики доставки (exactly-once, at-least-once), и куда это все полетит при смене схемы источника (Dead Letter). И понять, как устроить мониторинги и алерты работающих или сломавшихся пайплайнов. Но ясно, что в четвертом Спарке сделать такую операцию как стриминг подхват из топиков Кафки в таблицы Айсберга будет сильно проще, чем сейчас. А то и вовсе - декларативно. Что не может не радовать. Насладиться примерами можно в офф доке превью версии"
"В Spark 4.1 появлся ... Airflow В документации версии Spark 4.1-Preview…
Из этого канала
- #397Есть любопытный Q&A по фиче Spark пайплайнов. Подписчики мне справедливо…
Есть любопытный Q&A по фиче Spark пайплайнов. Подписчики мне справедливо попеняли, что речь идет не про Airflow DAG, а скорее про декларативное описание…
- #398Ехал метастор через метастор, видит метастор в метасторе метастор... Одни очень…
Ехал метастор через метастор, видит метастор в метасторе метастор... Одни очень большие ребята рассказали, что активно смотрят на Apache Gravitino.
- #399Meta[store] Mesh - ловите новый термин 😁
Meta[store] Mesh - ловите новый термин 😁
- #395Рубрика - Вредные советы
Рубрика - Вредные советы
- #394Люди с песьими головами или эта ваша аналитика глазами CTO Расскажу об одном…
Люди с песьими головами или эта ваша аналитика глазами CTO Расскажу об одном разговоре с моим тогдашним СТО, который многое для меня сделал понятным.