Huge Data На этой неделе общался с боссами дата офиса ВК. Господа управляют всеми данными 3 соцсетей группы ВК, а также ВК Видео, РуСтора, и многих десятков других бизнес-юнитов группы. Масштабы впечатляют. Счет идет на сотни петабайт полезных данных, а планы - на многие сотни петабайт. Кластера из тысяч нод под 100% нагрузкой. Ни в какие хадупы это уже не влезает. Без всяких шансов. И я задумался. Есть такая штука как BigData. У нее есть много определений, таких как 3-V, или «нечто, что бесполезно даже пытаться уместить на одной машине». Там правят бал системы наподобие Hadoop, Greenplum, Vertica, Trino. Системы с шардированием и горизонтальным масштабированием из-коробки, которые можно проскейлить от 10 до 200 узлов, не меняя подходы к управлению данными. Большинству компаний этого хватает. Но в какой-то момент начинается HugeData. По аналогии, это то, что бесполезно даже пытаться поместить в один Хадуп. Как быть, если есть планы на 100 ПБ в одном кластере? Что если бизнес видит в этом пользу? Можно подумать так. Допустим в России 10к платформ данных. То есть 10 тысяч компаний, которые занимаются обработкой данных много и профессионально. Крупный бизнес. Топ-2% из них это BigData - те, кто ставят себе большие планы на развитие, которые видят ценность накопить 50 или 1000 ТБ. Получаем 200 платформ. Топ-2% от этих топ-2% это и есть HugeData. Всего 3-5 платформ данных, которые метят в экзабайты. Интересно, какая статистика в других странах? Кто знает, как в Европе, США, Китае? Есть ли в Японии или Германии компании с данными такого размера и команды, которые берутся за такие задачи?