Мне понравилась статья Zака - The 2025 AI-enabled Data Engineering Roadmap. По… — @rockyourdata

Мне понравилась статья Zака - The 2025 AI-enabled Data Engineering Roadmap. По самому названию понятно, о чём идёт речь — как AI будет влиять на инженеров данных. Мне эта тема тоже интересна и близка. На текущий момент использование AI скорее приветствуется: важно понимать, какие есть инструменты, какие бывают сценарии и как можно сделать команду эффективнее. То есть угрозы полной замены инженера пока нет (хотя Цукерберг и другие боссы скажут вам обратное — но они, возможно, пока больше продают, чем предсказывают). Конечно, всё развивается настолько быстро, что может произойти что угодно. Например, блэкаут — и мы, как испанцы и португальцы недавно, останемся без электричества. Давайте посмотрим на его инсайты. Он разделил задачи инженеров на три категории в зависимости от степени угрозы: 🟢 Минимальный риск замещения 🟡 Средний риск замещения 🔴 Высокий риск замещения __📉 Что автоматизирует AI: 🔴 Отладка пайплайнов (on-call) – почти полностью автоматизируется (много ложных алертов от data quality-чеков или out-of-memory, AI отлично справляется) 🟡 Писать SQL и Spark код – уже частично автоматизируется через Cursor, Windsurf и пр., но всё ещё нужен человек для ревью и тестирования 🟡 Документация – шаблоны и черновики пишутся AI, но бизнес-контекст пока вне его зоны компетенций 🟡 Планирование спринтов – AI может помочь с оценкой задач, но согласование и приоритезация — это человеческая коммуникация 🟡 Писать тесты – генерация мок-данных и шаблонов тестов возможна, но продумать edge cases должен инженер 🔴 Ответы на бизнес-вопросы – если модель данных хорошо оформлена и задокументирована, AI может закрыть до 90–95% типовых запросов 🟡 Автоматизированные data quality-чек-листы – AI хорошо пишет базовые проверки (Great Expectations, SQLMesh), но без бизнес-контекста малоценны 📈 Что останется за инженерами: 🟢 Архитектура пайплайнов и фреймворков (Airflow, Spark и др.) – требует глубокого понимания систем, AI пока не справляется 🟢 Концептуальное моделирование данных – нужно много переговоров и знания бизнеса, AI здесь лишь помощник 🟢 Создание best practices и общих процессов – требует согласования, доверия, культуры — не заменяется быстро 🟢 Создание процессов генерации пайплайнов – организационные процессы требуют участия людей, особенно на старте 📐 Ключевые дизайн-паттерны (по убыванию полезности): 🟢 Kimball (факт/измерения) 🟢 OLTP (3NF) 🟢 SCD Type 2 🟢 One Big Table (NoSQL/широкие аналитики) 🟢 Feature Store для ML 🟢 Kappa-архитектура (Apache Flink) 🟡 Микробатчинг/часовые пайплайны 📚 Вывод: AI не заменит data-инженеров, но изменит их фокус — от ручной работы к концептуальному проектированию и бизнес-интеграции. Чтобы быть востребованным, нужно понимать архитектуру, паттерны и процессы, а не только писать SQL.__ В любом случае выбор у вас только один, учиться/развиваться или стагнировать. Для меня все это уже давно напоминает эскалатор в метро. Вы идет наверх, а он едет вниз. Вот только вы остановились, и все, уехали вниз🪦

Из этого канала