Изучая новости отчественных облаков обратил внимание на ключевые тезисы из дискуссии «Озера данных для конкурентоспобности бизнеса». __1. Компании инвестируют в озера данных сейчас, даже если не видят большого эффекта. Через несколько лет догонять лидеров в этой гонке будет сложно. 2. Мы идем к тому, что компании, которые не используют Data Lakehouse, будут считаться отстающими на Х лет. 3. Для многих компаний работа с большими данными — инвестиция вдолгую. Впереди — выработка методологии для правильной оценки эффекта, который принесут объемы вложенных ресурсов. 4. Перед бизнесом стоит организационный вызов: нужно научить отделы внутри компаний делиться данными и, возможно, идти в сторону отраслевых хранилищ с обезличенными данными. 5. Средний объем корпоративных хранилищ данных перешагнул порог 500 Тб. 6. Подобрать инфраструктуру для работы с большими данными сложно, поскольку ошибки при выборе провайдера могут сильно помешать масштабироваться на долгой дистанции.__ К самим тезисам и облачным продуктам вопросов нет - уверен, озёра данных действительно рулят: они хранят большие объёмы информации, даже в формате Iceberg. Но тема-то заявлена - «конкурентоспособность бизнеса». Подобные посты часто публикуют и Yandex Cloud, и Arenadata. Но такой контент не создаёт ценности - он ориентирован на нетехнических пользователей. Обычно таким читателям неважно, сколько там терабайт, и вряд ли они поймут разницу между lakehouse и data warehouse. Складывается впечатление, что компании должны внедрять озёра данных просто потому, что «все внедряют». И если вы ещё не внедрили и не мигрировали - то вам, по сути, нечем будет «мериться». Сколько у кого терабайт? Сколько кластеров? Сколько табличек? Кстати, западные вендоры уже ушли от такого подхода. Они либо делают упор на бизнес-результат и намеренно опускают технические детали, либо наоборот - таргетируют глубоко техническую аудиторию и погружаются в детали. То есть аудиторию чётко сегментируют. Этот подход хорошо иллюстрирует пример с резюме. Вы можете описать свой опыт через output: - количество таблиц - количество пайплайнов - количество дашбордов - количество PR - количество строк кода - миграция из А в Б - внедрение А, Б, В Но в этом мало ценности. Ценность - в outcome, в пользе, которую вы принесли. Написать резюме, в котором будет баланс между технологиями и бизнес-ценностью, - непростая задача. Особенно если его нужно уместить в две страницы. PS мне нравятся продукты yandex, vk, arenadata, проделана колоссальная работа и созданы отличные решения. Просто улыбнул факт подачи информации о ценности для бизнеса, напомнил мне собеседования и резюме. Всегда хочется рассказать про детали, но они не так важны.
Изучая новости отчественных облаков обратил внимание на ключевые тезисы из…
Из этого канала
- #5243Все знакомы с понятием Ad-hoc запросов. Обычно мы воспринимаем их негативно,…
Все знакомы с понятием Ad-hoc запросов. Обычно мы воспринимаем их негативно, так как они отвлекают, время-то и так мало.
- #5245"Data-driven культура часто выглядит как BI инструмент(ы) с метриками и…
"Data-driven культура часто выглядит как BI инструмент(ы) с метриками и дашбордами + хранилище данных (хотя уже модно делать Data Lakeuse на 500ТБ 🤔).
- #5246Ищете работу на международном рынке? Тогда канал Connectable Jobs будет полезен…
Ищете работу на международном рынке? Тогда канал Connectable Jobs будет полезен для вас.
- #5240"AI-помощники при работе с кодом. Взгляд в будущее - Евгений Колесников -…
"AI-помощники при работе с кодом. Взгляд в будущее - Евгений Колесников - Platform Engineering Night (Рубрика #AI) Крутое выступление Евгения из команды Yandex…
- #5239"Очень интересная точка зрения основателя Tobiko (SQLMesh) — главного…
"Очень интересная точка зрения основателя Tobiko (SQLMesh) — главного конкурента dbt.