Soft Delete Techniques Или как понять, что ваши данные кому-то нужны Есть два героя: Миша (продуктовый аналитик) и Артем (дата инженер). С ними случилась такая история: 🙂 привет, Миша! ты три года назад создавал таблицу user_orders_check_agg_m, она занимает 100тб, последний раз использовалась в прошлом году. она еще нужна, можно удалить? 🦔 привет! можно, мы ее готовили для экспериментов, но их отменили Кластер задышал, ведь с репликацией это целых 300тб свободного места Через неделю Миша приходит: 🦔 Артем, помнишь, мы обсуждали табличку user_orders_check_agg_m? у нас снова запускается эксперимент, нам срочно нужно ее восстановить!!! 😳 ...... Артем находит цепочку зависимостей: user_orders_check_agg_m -> user_orders_check_agg -> user_orders_check -> user_orders_abc, user_orders_def -> user_orders Причем все промежуточные таблицы уже удалены Артем поднимает старые скрипты, адаптирует их под новую версию спарка, переписывает под новую схему данных, пересоздает таблички, тестирует, ставит на расчет. Через месяц все готово Но команда не успела зарелизить запланированные фичи. Все клиенты ушли к конкурентам Какие есть варианты, чтобы помочь Артему и команде меньше нервничать в следующий раз? 1️⃣Переименовать табличку - сразу найдем среди сотен процессов те, которым она нужна ```ALTER TABLE exp.user_orders_check_agg_m RENAME TO exp.user_orders_check_agg_m_trash;``` 2️⃣Переместить в .Trash - когда мы удаляем руками из hdfs, они перемещаются в папку .Trash. Там они хранятся столько, сколько задано в fs.trash.interval при настройке кластера. Поэтому будет какое-то время прийти за ними ```hdfs dfs -rm -r user_orders_check_agg_m_data INFO fs.TrashPolicyDefault: Moved: 'hdfs://data/user_orders_check_agg_m_data' to trash at: hdfs://data/.Trash/Current/user/admin/user_orders_check_agg_m_data``` 3️⃣Переместить в другую папку для мусора и периодически подчищать ее ```hdfs dfs -mv user_orders_check_agg_m_data some_trash_folder``` Есть еще другие варианты? Или это проблема Миши, что он разрешил дропнуть таблицу? 😁
Soft Delete Techniques Или как понять, что ваши данные кому-то нужны Есть два…
Из этого канала
- #4314. Встречи 1:1 Продолжаю рассказывать про курс команды Третий модуль - тут…
4. Встречи 1:1 Продолжаю рассказывать про курс команды Третий модуль - тут Описание программы - тут Что рассмотрели: ⏺что обсуждать, как, как часто, зачем…
- #437"Две конфы Прошедшие 3 дня для меня выдались супер насыщенными🔥 Все началось с…
"Две конфы Прошедшие 3 дня для меня выдались супер насыщенными🔥 Все началось с вечера пт и big tech night.
- #441А вы часто обращаете внимание, какие вопросы задает собеседующий? Недавно…
А вы часто обращаете внимание, какие вопросы задает собеседующий? Недавно слушала пару собесов и отметила занятные вопросы: 🤩Было ли такое, что пришли с…
- #425"Урок русского языка без литературы У нас на этой неделе проходят уроки в…
"Урок русского языка без литературы У нас на этой неделе проходят уроки в рамках программы ""Back To School"".
- #424Serializability vs Linearizability Этим понедельничным деньком настало время…
Serializability vs Linearizability Этим понедельничным деньком настало время разобраться между двумя очень похожими терминами🤓 💋Есть 2 счета с денюжками: A=30…