Котятки,🐱 Заходя в новый проект с новым источником, раньше я с ходу предлагала CDC. Ну было модно, что уж. Шло время, и теперь я предлагаю работать с захватом изменений только там, где это безопасно, уместно по нагрузке на систему-источник, и что главное, нормально уживется с паттерном проектирования базы данных системы. Новая библиотека (предыдущая ссылка, которую я публиковала в канале, умерла): https://gitart.gitbooks.io/bazi-dannih-i-proektirovanie-dannih/content/shabloni-proektirovaniya.html Сейчас мой алгоритм достаточно прост: 🕵🏻‍♂️Почитать архитектурную документацию (если есть) Понять, на какой паттерн я смотрю (иногда на никакой, особенно в легаси, где базу пилили 5 криворуких аутсорсеров в разные эпохи) 🔹Определить происхождение данных, создаются они в системе или тоже интегрируются извне, какие у них метки времени и порядка. 🧑‍💻Почитать документацию по источнику - вы можете столкнуться с ситуацией, когда CDC -это свойство таблицы, и даже без явных меток она вам по индексу отдаст данные, а можете долго бодаться с системами типа SAP, которые защищаются от CDC, и после долгой позиционной борьбы забирать через экстракторы. 🦸Договориться о доработках , так как иногда проще попросить API или вьюху, чем строить из себя героя и воспроизводить логику какой-нибудь зубодробильной системы на DWH. Вы мне можете возразить, что это все задачки Дата-инженеров, пусть они сами об этом думают, а нам, аналитикам и архитекторам данных, надо всего лишь описать данные и сделать S2T. Но давайте объективно, это базовые элементы системного анализа в DWH. Без них, ну такое себе.