Есть любопытный Q&A по фиче Spark пайплайнов. Подписчики мне справедливо попеняли, что речь идет не про Airflow DAG, а скорее про декларативное описание моделей и потоков данных, что больше похоже на DBT, SQLMesh. Как раз окрестратор в этом дополнении предельно простой - из одной команды spark-pipeline run my.yaml. Полноценный шедулер (пока) никто не делает. Хотя в будущем, полагаю, появится какой-то аналог dbt run с его селекторами. На философском уровне, как также верно отметили комментаторы, спарк постепенно из библиотеки, которая запускает Map-Reduce в памяти, превратился в неимоверный комбайн, который разве что кофе не варит. Наверное, это судьба всех успешных фреймворков. Я честно говоря, жду когда появится альтернатива, которая будет себя позиционировать как SimpleSpark. Или DuckSpark 😁 Если знаете такую, напишите в коментах.
Есть любопытный Q&A по фиче Spark пайплайнов. Подписчики мне справедливо…
Из этого канала
- #398Ехал метастор через метастор, видит метастор в метасторе метастор... Одни очень…
Ехал метастор через метастор, видит метастор в метасторе метастор... Одни очень большие ребята рассказали, что активно смотрят на Apache Gravitino.
- #399Meta[store] Mesh - ловите новый термин 😁
Meta[store] Mesh - ловите новый термин 😁
- #400Хозяйке на заметку. Если нейросеть тупит, просто повторите промпт еще разик
Хозяйке на заметку. Если нейросеть тупит, просто повторите промпт еще разик
- #396"В Spark 4.1 появлся ... Airflow В документации версии Spark 4.1-Preview…
"В Spark 4.1 появлся ... Airflow В документации версии Spark 4.1-Preview появились так называемые Spark Declarative Pipelines (SDP) На борту: 1️⃣ Несколько…
- #395Рубрика - Вредные советы
Рубрика - Вредные советы