Huge Data На этой неделе общался с боссами дата офиса ВК. Господа управляют всеми данными 3 соцсетей группы ВК, а также ВК Видео, РуСтора, и многих десятков других бизнес-юнитов группы. Масштабы впечатляют. Счет идет на сотни петабайт полезных данных, а планы - на многие сотни петабайт. Кластера из тысяч нод под 100% нагрузкой. Ни в какие хадупы это уже не влезает. Без всяких шансов. И я задумался. Есть такая штука как BigData. У нее есть много определений, таких как 3-V, или «нечто, что бесполезно даже пытаться уместить на одной машине». Там правят бал системы наподобие Hadoop, Greenplum, Vertica, Trino. Системы с шардированием и горизонтальным масштабированием из-коробки, которые можно проскейлить от 10 до 200 узлов, не меняя подходы к управлению данными. Большинству компаний этого хватает. Но в какой-то момент начинается HugeData. По аналогии, это то, что бесполезно даже пытаться поместить в один Хадуп. Как быть, если есть планы на 100 ПБ в одном кластере? Что если бизнес видит в этом пользу? Можно подумать так. Допустим в России 10к платформ данных. То есть 10 тысяч компаний, которые занимаются обработкой данных много и профессионально. Крупный бизнес. Топ-2% из них это BigData - те, кто ставят себе большие планы на развитие, которые видят ценность накопить 50 или 1000 ТБ. Получаем 200 платформ. Топ-2% от этих топ-2% это и есть HugeData. Всего 3-5 платформ данных, которые метят в экзабайты. Интересно, какая статистика в других странах? Кто знает, как в Европе, США, Китае? Есть ли в Японии или Германии компании с данными такого размера и команды, которые берутся за такие задачи?
Huge Data На этой неделе общался с боссами дата офиса ВК. Господа управляют…
Из этого канала
- #91Депрессия в профессии Продолжаю получать по разным каналам инсайды о…
Депрессия в профессии Продолжаю получать по разным каналам инсайды о сокращениях в проектах, связанных с данными.
- #92Богатыри - не вы! Мы - люди двадцатых годов, золотого века данных. Мы могли:…
Богатыри - не вы! Мы - люди двадцатых годов, золотого века данных. Мы могли: 👨💻 Писать SQL запросы полностью в текстовом редакторе.
- #93Берегите свои БД от доступа. Закрывайте сетевыми экранами!
Берегите свои БД от доступа. Закрывайте сетевыми экранами!
- #89Про Trino — статьи и видео Привет! На вебинаре во вторник мы рассказали про…
Про Trino — статьи и видео Привет! На вебинаре во вторник мы рассказали про Trino.
- #88Всем ли нужно заниматься данными? Нередко заказчики спрашивают что-то подобное.…
Всем ли нужно заниматься данными? Нередко заказчики спрашивают что-то подобное. Что, прямо в каждой компании должен быть стек обработки [больших] данных?…