Мне понравилась статья Zака - The 2025 AI-enabled Data Engineering Roadmap. По самому названию понятно, о чём идёт речь — как AI будет влиять на инженеров данных. Мне эта тема тоже интересна и близка. На текущий момент использование AI скорее приветствуется: важно понимать, какие есть инструменты, какие бывают сценарии и как можно сделать команду эффективнее. То есть угрозы полной замены инженера пока нет (хотя Цукерберг и другие боссы скажут вам обратное — но они, возможно, пока больше продают, чем предсказывают). Конечно, всё развивается настолько быстро, что может произойти что угодно. Например, блэкаут — и мы, как испанцы и португальцы недавно, останемся без электричества. Давайте посмотрим на его инсайты. Он разделил задачи инженеров на три категории в зависимости от степени угрозы: 🟢 Минимальный риск замещения 🟡 Средний риск замещения 🔴 Высокий риск замещения __📉 Что автоматизирует AI: 🔴 Отладка пайплайнов (on-call) – почти полностью автоматизируется (много ложных алертов от data quality-чеков или out-of-memory, AI отлично справляется) 🟡 Писать SQL и Spark код – уже частично автоматизируется через Cursor, Windsurf и пр., но всё ещё нужен человек для ревью и тестирования 🟡 Документация – шаблоны и черновики пишутся AI, но бизнес-контекст пока вне его зоны компетенций 🟡 Планирование спринтов – AI может помочь с оценкой задач, но согласование и приоритезация — это человеческая коммуникация 🟡 Писать тесты – генерация мок-данных и шаблонов тестов возможна, но продумать edge cases должен инженер 🔴 Ответы на бизнес-вопросы – если модель данных хорошо оформлена и задокументирована, AI может закрыть до 90–95% типовых запросов 🟡 Автоматизированные data quality-чек-листы – AI хорошо пишет базовые проверки (Great Expectations, SQLMesh), но без бизнес-контекста малоценны 📈 Что останется за инженерами: 🟢 Архитектура пайплайнов и фреймворков (Airflow, Spark и др.) – требует глубокого понимания систем, AI пока не справляется 🟢 Концептуальное моделирование данных – нужно много переговоров и знания бизнеса, AI здесь лишь помощник 🟢 Создание best practices и общих процессов – требует согласования, доверия, культуры — не заменяется быстро 🟢 Создание процессов генерации пайплайнов – организационные процессы требуют участия людей, особенно на старте 📐 Ключевые дизайн-паттерны (по убыванию полезности): 🟢 Kimball (факт/измерения) 🟢 OLTP (3NF) 🟢 SCD Type 2 🟢 One Big Table (NoSQL/широкие аналитики) 🟢 Feature Store для ML 🟢 Kappa-архитектура (Apache Flink) 🟡 Микробатчинг/часовые пайплайны 📚 Вывод: AI не заменит data-инженеров, но изменит их фокус — от ручной работы к концептуальному проектированию и бизнес-интеграции. Чтобы быть востребованным, нужно понимать архитектуру, паттерны и процессы, а не только писать SQL.__ В любом случае выбор у вас только один, учиться/развиваться или стагнировать. Для меня все это уже давно напоминает эскалатор в метро. Вы идет наверх, а он едет вниз. Вот только вы остановились, и все, уехали вниз🪦
Мне понравилась статья Zака - The 2025 AI-enabled Data Engineering Roadmap. По…
Из этого канала
- #5209Алексей Колоков все время что-то придумывает! Вот в этот раз для своих (и не…
Алексей Колоков все время что-то придумывает! Вот в этот раз для своих (и не только) аналитиков, он придумал Crazy Data Quizzzz, потому что от обычных уже все…
- #5210Про дату пока нет новостей, зато могу рассказать про недвижимость. Вообще эта…
Про дату пока нет новостей, зато могу рассказать про недвижимость. Вообще эта тема заслуживает отдельного поста на хабр, так как там много всяких нюансов и…
- #5211"Письмо от CEO Fiverr. ""Лёгкие задачи"" исчезают, ""трудные"" становятся…
"Письмо от CEO Fiverr. ""Лёгкие задачи"" исчезают, ""трудные"" становятся базовым уровнем, а ""невозможные"" — новыми сложными.
- #5206в посте - macOS: Essential Productivity Hacks for Developers — No AI Needed…
в посте - macOS: Essential Productivity Hacks for Developers — No AI Needed автор делится советами по настройки мака, рассказывает про следующие утилитки: -…
- #5205Когда нужен перерыв от всяких дата и AI штук, use cases, собеседований, и…
Когда нужен перерыв от всяких дата и AI штук, use cases, собеседований, и других вещей.