Бенчмарки по численности и функционалу data ролей __В этом году делал полевой ресерч структур дата/BI команд в российском Tech сегменте (cпасибо всем за участие). В эту же тему делал ранее более широкий ____опрос____.____ В итоге после очистки осталось 64 российских компаний из разных отраслей и я таки собрал данные в ____публичный деш.__ Вот хайлайт выводов Пропорции ролей На 1 data роль - 11.7 casual users (обычные бизнес пользователи) На 1 BI/DA - 25 casual users На 1 DE - 1.9 BI/DA Структура data ролей (в среднем): 51% — BI/DA (на 1 BI - 8-10 Data-аналитиков) 26% — Data Engineers. 17% — Data Scientists. 7% — DG/DQ В условном IT+ecomm - количество дата ролей значимо больше, чем в других отраслях: На 1 data роль - 8.3 casual users На 1 BI/DA - 15 casual users Воздержусь от других выводов - слишком малая выборка и много вопросов к тому кто, кого, куда относит на стыках DE-BI, DA-DS. Кажется __специфика компании ее история и аналитическая традиция влияет на состав (и нейминг) ролей не меньше, чем размер или отрасль.__ Данные можно соотнести с databenchmarks. Забавно что если сделать регруппинг моих ролей по их корзинам insight / engineering / ML (DS попадает в Insight, BI и DG в Engineering) то получаются очень близкие цифры. Другие наблюдения из интервью BI COE/Core BI В децентрализованной модели - масштаб спонсирует организацию: при небольшом числе доменов и BI-аналитиков (менее 30) - BI CoE себя не окупает. При росте возникает BI Core/CoE, который берёт на себя стандартизацию, кросс-доменные практики работы с качеством, демократизацию, обучение, координацию инициатив развития. Триггер - когда несколько доменов начинают автономно строить свои собственные процессы управления BI/данными. Размер Core BI обычно 3–5 человек. Больше - только если команда берет на себя дополнительные домены на поддержку, как правило корп функций. Есть варианты «виртуального» CoE (сборные советы чемпионов) - могут давать ограниченный эффект на малом-среднем масштабе. Другие Роли - Подход 1: BI работает рядом с SA и DE, деля между собой функции в BI-цикле. BI - деши и репортинг витрины. SA и DE - качество остальных слоев данных. - Подход 2: BI как fullstack/AE. DE занимается платформой и кор слоем витрин. При этом все может быть гибридно и неоднородно внутри одной компании от домена к домену. Курирование доменов Зрелые компании вводят дополнительную роль Дата партнеров (нейминг разнится), отвечающие за BI сертификацию, полноту метаданных, за качество данных внутри домена. Это могут быть BI-лиды, системные аналитики. Роль замыкает на себя рутины гавернанса. Кому есть что добавить - велком