Дайджест статей 📰 Claude Code is already scarily good at data engineering… — @cdo_club

Дайджест статей 📰 Claude Code is already scarily good at data engineering (Medium, paywall) 🔗 https://medium.com/@hugolu87/claude-code-is-already-scarily-good-at-data-engineering-2b238d8ee573 💡 Вывод: Чтобы агентный код реально дебажил пайплайны, инфраструктура должна выдать ему четыре вещи: метаданные/lineage, доступ к коду через pipelines-as-code, CLI или MCP-эндпоинты и governance-слой — без этого Claude Code превращается в умного гостя без ключей. Legacy-архитектура, где метаданные размазаны по чатикам и Confluence, делает агентный debugging невозможным архитектурно, а не технологически. 📰 Agentic AI: Fragmented Data & LLM Reasoning Challenges (Medium, paywall) 🔗 https://ai.gopubby.com/agentic-ai-for-industrial-iot-use-cases-f6a8036a2ea3 💡 Вывод: Industrial IoT — следующий крупный полигон для агентных систем: сенсорные данные физически фрагментированы между HVAC, чиллерами, AHU и историческими СУБД, и их нельзя централизовать без перестройки. Агент с reasoning-слоем поверх такой топологии решает не «спросить LLM», а оркестрировать декомпозицию запроса по разнородным источникам — это другая инженерная задача, чем enterprise RAG. 📰 ClickHouse не тормозит, но заставляет глаз дергаться. Materialized Views 🔗 https://habr.com/ru/articles/1025184/ 💡 Вывод: MV в ClickHouse — это не «замороженный запрос», а триггер на INSERT, и это меняет всё проектирование витрин: UPDATE/DELETE через MV не пройдут, и архитектура должна быть append-only с версионированием. Команды, мигрирующие из Postgres/Oracle с привычкой к REFRESH, гарантированно соберут грабли в проде — REFRESHABLE MV есть, но это костыль, а не штатный паттерн. 📰 Как мы встроили LLM в Data Quality и не потеряли контроль (Just AI) 🔗 https://habr.com/ru/companies/just_ai/articles/1011428/ 💡 Вывод: Кейс показывает работающую модель ограничений для production-LLM: модель не ходит в прод, не принимает решений, генерирует только проверяемые артефакты в строгом JSON-схеме — и за счёт этой «скучной» архитектуры команда получает 80% экономии времени на старте новых таблиц и расследовании инцидентов. Главное практическое наблюдение: бóльшая часть стоимости DQ — это «пустой лист» при подключении новой витрины и интерпретация падающих правил, и обе эти задачи LLM закрывает без риска, если её посадить на маскированный контекст и needs_domain_info-флаги. 📰 8 RAG Patterns You Should Stop Ignoring (DZone, через зеркала Medium/dev.to) 🔗 https://dzone.com/articles/dont-ignore-these-rag-patterns 💡 Вывод: RAG перестал быть архитектурой и стал семейством паттернов под разные failure modes — Naive, Graph, Hybrid, Corrective, Agentic, Adaptive, Self-RAG, Contextual Memory, и production-системы комбинируют по 2–3 одновременно. Практический сдвиг для CDO: «у нас есть RAG» больше ничего не означает — нужно описывать конкретный паттерн под конкретный класс запросов, иначе обсуждение качества и стоимости не имеет смысла. 📰 Как мы строили MVP data lineage системы в ЮMoney 🔗 https://habr.com/ru/companies/yoomoney/articles/1027068/ 💡 Вывод: Кейс ЮMoney показывает, что lineage можно поднять за квартал силами одного департамента: парсер DDL/SQL (DacFx) + Neo4j + Cypher-запросы вроде `shortestPath` дают ответы за минуты вместо часов ручного код-ревью. Важный сигнал — авторы явно отказываются от ручного описания связей в YAML/dbt-стиле, потому что это перекладывает работу на разработчиков; автоматический парсинг кода — единственный устойчивый путь, если у вас уже не data-mesh с контрактами.

Из этого канала