Продолжаю серию постов про ожидания от высшего руководства для управления командой аналитики в Северной Америке. Я уже рассказывал, что общаюсь про позицию VP Analytics & DE в американскую компания, в компании всего 700 сотрудников и их gross revenue 150mln в год. Компания используют данные и аналитику как часть своего портфеля продуктов. (А кто сейчас не использует?😃) Я уже общался с CTO, и следующий этап был с их подрядчиком. С ними работают небольшое агентство из Сиэтла, которое фокусирует на AI (А кто сейчас не фокусируется на AI?😃). Они попросили основателя провести собеседование, и мне очень понравился его framework. Сам мужик оказался очень крутым по общению, а потом я посмотрел на его профиль: 2000-2011 - Director BigData&Analytics, Microsoft 2011-2016 - основатель консалтинг компании, которую купил Ernst&Young 2016-2019 - Partner, Analytics & AI, EY 2019-2022 - General Manager, Product Management & AI, Amazon И сейчас он строит новую компанию, чтобы тоже ее продать, но уже с AI. У нас с ним оказалось много общего, вместе работали в Amazon и Microsoft, вместе создавали консалтинг компанию. Есть конечно и различия, но в детали я не буду углубляться😉 Я использовал Limitless, чтобы записать наш разговор и потом попросил ChatGPT его структурировать и перевести на русский, получилось достойно: 1. Technical Leadership (Техническое лидерство): Вопрос: Расскажи о случае, когда ты проектировал data platform с нуля до конца. Какие ключевые факторы ты учитывал при принятии решений? Твой ответ: Ты рассказал об опыте миграции классического data lake из Amazon в современную Lakehouse архитектуру. В Microsoft (Xbox) перед тобой стоял выбор между нативными решениями Azure (Synapse, HDInsight) и Databricks. Ты выбрал Databricks из-за возможностей Delta Lake (например, соблюдение GDPR и поддержка ACID транзакций). Ты провёл детальный POC и убедительно показал его преимущества руководству, избежав принудительного перехода на Synapse. Благодаря этому удалось обеспечить elastic scalability и сократить задержку аналитики с 24 часов до 1 часа. Ты повысил стабильность пайплайнов, внедрив подход Infrastructure as Code, и эффективно справился с нагрузкой в пиковые периоды запуска игр, используя тестовые данные (mock data). 2. Data Governance (Управление данными): Вопрос: Какова твоя философия в области data governance и какие конкретные шаги ты предпринял для её реализации? Твой ответ: Твоя философия заключается в том, чтобы связывать инициативы по data governance с бизнес-целями компании. Ты начинаешь с простых и практичных решений (документация, удобный поиск данных, создание data catalog) и оцениваешь зрелость компании через опросы пользователей. Ты ставишь во главу угла коммуникацию, доверие к данным (trustworthiness) и удобство их использования. Также ты упомянул, что использовал специализированные порталы и решения для data observability (например, Monte Carlo) для отслеживания качества и документации данных. 3. Analytics & Data Science Enablement (Поддержка аналитики и Data Science): Вопрос: Как ты поддерживаешь команды аналитиков и data scientists, чтобы их потребности не перегружали ресурсы твоей команды по data engineering? Твой ответ:** Ты всегда чётко расставляешь приоритеты и прозрачно коммуницируешь о возможных конфликтующих задачах. Ты внедряешь общие frameworks (DBT, Snowflake, Airflow), избегаешь подходов «чёрного ящика» (black-box pipelines) и обучаешь команды правильным практикам. В недавнем проекте ты улучшил производительность пайплайнов ML-команды, разбив их на простые и прозрачные модели (DBT models), сократив время выполнения с нескольких часов до нескольких минут. Ты предложил стандартизировать подходы (frameworks), чтобы инженеры могли легче помогать и диагностировать проблемы пайплайнов аналитиков. Отдельно ты упомянул контроль ресурсов (например, стоимости в Snowflake) путём установки ограничений на запросы (timeouts, размеры warehouses), еженедельного обзора расходов и предварительного обучения новых пользователей, чтобы избежать перерасходов.