Дайджест статей 📰 Миграция базы данных в Legacy системах 🔗… — @cdo_club

Дайджест статей 📰 Миграция базы данных в Legacy системах 🔗 https://habr.com/ru/articles/1020048/ 💡 Вывод: Для legacy-систем без ORM и Liquibase/Flyway вполне достаточно самописного инструмента с четырьмя типами скриптов (environment → baseline → versioned → repeatable) и таблицами версий в каждой схеме. Критична не сложность инструмента, а дисциплина: fix-forward вместо rollback и неломающие изменения для горячего деплоя. 📰 Data as Code на практике: создаем, версионируем и делимся модулями БД с помощью ArchDB 🔗 https://habr.com/ru/companies/sberbank/articles/1016996/ 💡 Вывод: ArchDB — декларативный DSL поверх DBML с формальной грамматикой, множественным наследованием шаблонов и модульной системой (Package, Schema, Import/Export). Ключевая идея: стандарты проектирования БД перестают быть PDF-документом и становятся исполняемым кодом, который автоматически распространяется через версионируемые библиотеки шаблонов. 📰 Рецензия на книгу «Искусство визуализации в бизнесе» 🔗 https://habr.com/ru/companies/ssp-soft/articles/1018680/ 💡 Вывод: Книга Натана Яу (FlowingData) — практический гайд по всему циклу визуализации: от сбора данных до выбора типа графика и дизайна. Фокус на коммуникации данных бизнес-аудитории, не на статистике и не на UI-дизайне. Полезна аналитикам, которые готовят отчёты для руководства. 📰 Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark» 🔗 https://habr.com/ru/companies/piter/articles/1021230/ 💡 Вывод: Питхейн Стренгхольт (автор «Data Management at Scale») даёт практическое руководство по медальонной архитектуре на Azure Databricks и Microsoft Fabric с реальными кейсами AP Pension, Amadeus и ZEISS. Книга покрывает контракты данных, безопасность и применение GenAI/RAG к неструктурированным данным внутри медальона. 📰 Разработка BI-аналитики для застройщика в Apache Superset 🔗 https://habr.com/ru/articles/1021606/ 💡 Вывод: Кейс миграции с Power BI на Apache Superset из-за санкционных рисков. Типовой паттерн: Python-скрипты для сбора из 1С/Google Sheets/Excel → PostgreSQL → view/materialized view → дашборды. Superset выбрали именно за автономность — open-source на собственной инфраструктуре без зависимости от внешних лицензий. 📰 Почему observability-данные теряют ценность ещё при сборе 🔗 https://habr.com/ru/companies/otus/articles/1020952/ 💡 Вывод: Модель «трёх опор» (метрики/логи/трейсы) разрушает связность данных при записи, а ценность телеметрии растёт комбинаторно с количеством атрибутов в одном событии. AI-SRE-агенты уже обходят традиционную observability, возвращаясь к сырым данным ради сохранённого контекста. Для агентной валидации в продакшене нужны широкие структурированные события, а не разрозненные сигналы. 📰 Beyond ETL: The Case for Context 🔗 https://agentblueprint.substack.com/p/beyond-etl-the-case-for-context 💡 Вывод: ECL-фреймворк (Extract → Contextualize → Link) переносит центр тяжести с трансформации данных на формализацию значений. Context Store — это по сути materialized view для семантики: версионируемое, queryable хранилище определений, которое агенты читают до обращения к данным. Инфраструктура для этого уже существует (инкрементальная репликация, tenant isolation, freshness SLA) — не хватает governance-шаблонов. 📰 Reference Data Management по-русски: что мы называем НСИ и почему это не всегда RDM 🔗 https://habr.com/ru/companies/datasapience/articles/1012404/ 💡 Вывод: В международной практике RDM (справочники) и MDM (мастер-данные) — разные классы систем с разными задачами. В российской практике НСИ = RDM + часть MDM + DQ, и заказчики хотят «одну систему на всё». Универсальные решения пока не дозрели — на горизонте 3–5 лет, а сейчас разумнее подбирать специализированный продукт под каждую задачу.

Из этого канала