👍 Как я ускорил чтение данных в 47 раз! Мне нужен был такой заголовок, чтобы бы… — @halltape_data

👍 Как я ускорил чтение данных в 47 раз! Мне нужен был такой заголовок, чтобы бы обратили внимание. Но вообще так оно и есть. Проблема: Большая таблица занимает много места в Greenplum. Она не партицирована, поэтому еще и долго читается. Че хотим: Хотим быстро читать и чтобы не занимала диск в Greenplum. В чем сложность: Если создать партииции (папки по дням), то скорость чтения конечно увеличится, но вот весить она будет еще больше за счет метаданных. Короче ниче мы таким образом не решаем. Так выгрузи в S3: А если я выгружу таблицу в S3 (Объектное хранилище внешнее), то скорость чтения упадет во много раз. Но зато сэкономлю на дисках.. И как ты решил? Я раписал полный рабочий кейс в ROADMAP На скрине я показал сравнение подходов. Кому лень читать: Я автоматизировал создание партциий только для требуемеого инкремента, авто загрузку в Yezzey (Yandex Hybrid Storage), что позволяет экономить место в рамках кластера, но при этом получать почти такую же скорость чтения, как и в GP. В статье я привожу околок продовый код. Там конечно у меня есть доп функционал, который делает дедубликацию данных, чтение метаданных по крайней партиции и так далее. Но суть остается прежней.

Из этого канала