Snowflake самый популярный и при этом “простой” инструмент. Почему “простой” в кавычках? Потому что с ним легко начать, везде всем знакомый SQL, запросы всегда работают, можно обрабатывать огромные массивы данных, маштабироваться горизонтально и вертикально. В общем одним плюсы на старте, а потом как повезет. В посте товарищ указал на некоторые из проблем, с которыми он столкнулся: __Я работаю с технологией Snowflake уже 7 лет, и вот вещи, с которыми большинство внедрений Snowflake сталкиваются и с большим трудом справляются. __- __Role-based access control — Очень легко создать полный хаос, после чего команда DBA оказывается навечно занята решением проблем с доступами. __- __Virtual Warehouse deployment — В итоге у вас появляется сотни __VW__, и расходы стремительно выходят из-под контроля. __- __Data Clustering — Они не работают как индексы и часто приводят к огромным затратам без какого-либо прироста производительности. __- __Migrating to Snowflake — На первый взгляд кажется, что это намного проще, чем миграция на Oracle (или с него), но затем вы понимаете, что Snowflake сильно отличается — а миграции баз данных вообще всегда болезненны. __- __Performance vs. Cost — В Oracle или SQL Server вы раньше просто тюнили производительность. В Snowflake же у вас три конкурирующие задачи: __ - __(a) Performance — как можно быстрее выполнять пользовательские запросы __ - __(b) Throughput — обрабатывать огромные объёмы данных, т.е. буква T в ELT __ - __(c) Cost — о которой вы даже не задумываетесь, пока менеджеры не начнут жаловаться, что система обходится в миллионы долларов в год.__ Про RBAC полностью соглашусь, я использовал и Terraform, и permifrost, но в больших конторах всегда все выходило из под контроля и любые изменения занимают время + ограничения каждого из подходов. Цена у Snowflake всегда боль. А с тюнингом не заморачиваются, просто увеличивают размер VW или кластера. Альтернативы всегда есть, но как всегда в ИТ это tradeoff. Какая мораль истории? Во всех аналитических проектах, даже если там не Snowflake, всегда важна безопасность, цена и производительность. Именно на этом и нужно акцентировать внимание при работе и собеседованиях.
Snowflake самый популярный и при этом “простой” инструмент. Почему “простой” в…
Из этого канала
- #5348Ох gpt5 здесь, чтобы всех нас заменить 🦯
Ох gpt5 здесь, чтобы всех нас заменить 🦯
- #5349"Data Observability относится к data engineering, и является его неотъемлемой…
"Data Observability относится к data engineering, и является его неотъемлемой частью, согласно best practices, конечно.
- #5350Само решение достаточно не сложное, данные все хранятся в AWS S3 в Parquet.…
Само решение достаточно не сложное, данные все хранятся в AWS S3 в Parquet. Другая команда использует kinesis и пишет в S3.
- #5346Интересная статья про отрицательную селекцию
Интересная статья про отрицательную селекцию
- #5345Как любил говорить мой любимый учитель английского в лицее №1501: «Когда одним…
Как любил говорить мой любимый учитель английского в лицее №1501: «Когда одним хорошо, другим дурно».