О каталоге Greenplum (1) В сообществах Greenplum обсуждают хабростатью. Я такой себе Greenplum DBA, но позволю себе небольшой коментарий. На самом деле, статью надо разбивать на 2 части. Первая про проблему мелких файлов в лейкхаусе, а точнее, мелких объектов в S3, которые генерит любой формат с дельтой. Вторая про проблему распухания каталога в Гринпламе. В чем суть. Колоночный формат в классической MPP СУБД (Greenplum, Clickhouse, Vertica etc) кладет в файловую систему 1 файлик на каждую колонку каждой таблицы. В случае партиционированной таблицы, это умножается еще и на количество партиций. В случае гринплама сюда же прибавим логические шарды-сегменты, и их зеркала, которые еще умножают число файлов на свой фактор параллелизма. Если таблицы широкие и партиций много, то файликов становится неприлично много. Когда-то кластер от такого начинает страдать. Конкретно в Гринпламе за этим огромным зоопарком следит такая штука, как системный каталог. Это, по сути, набор индексированных постгресовых таблиц на мастер-сегменте. С помощью этих таблиц сама СУБД узнает, где у нее чего и сколько лежит. И эта же структура используется при планировании пользовательских запросов. Коллеги описывают ситуацию, когда они делали множество 100-колоночных таблиц и много тысяч партиций к ним. Всего в БД оказывались десятки миллионов объектов и миллиарды строк в каталоге, которые их описывают. Объем служебной информации перевалил за 10 ТБ (!). И надо понимать, что при планировании каждого запроса кластер вынужден лопатить эти 10 ТБ просто для того чтобы понять, какие файлы ему читать для ответа на SQL. Ситуация слегка доведена до абсурда, но весьма поучительная. Если вы эксплуатируете большой Greenplum, то каталог, его объем и его здоровье становятся одной из ваших главных головных болей. Продолжение
О каталоге Greenplum (1) В сообществах Greenplum обсуждают хабростатью. Я такой…
Из этого канала
- #236О каталоге Greenplum (2) Начало Какая мораль у этой статьи про распухшие…
О каталоге Greenplum (2) Начало Какая мораль у этой статьи про распухшие каталоги Гринплама.
- #237О каталоге Greenplum (3) Насколько реально может распухать количество файлов.…
О каталоге Greenplum (3) Насколько реально может распухать количество файлов. Пример относительно небольшого облачного кластера на 8 ТБ полезных сжатых данных…
- #240Приветствую всех новоприбывших! Спасибо что присоединились! В предыдущих сериях…
Приветствую всех новоприбывших! Спасибо что присоединились! В предыдущих сериях про Лейкхаус или плейлист полезных видео. Первое.
- #234LLM over BI - надо ли? Тут Дима Аношин пишет про замену классического Business…
LLM over BI - надо ли? Тут Дима Аношин пишет про замену классического Business Intelligence на бездушного бота в слаке.
- #233"Хакатон по лейкхаусу с призом 1 млн! Недавно запустили хакатон от мэра Москвы…
"Хакатон по лейкхаусу с призом 1 млн! Недавно запустили хакатон от мэра Москвы - ""Лидеры Цифровой Трансформации"".