Как прошла SmartData 2025? Это были 2 дня конфы в Питере - доклады, тусовка крутых ребят, активности и обсуждения. Ниже будут инсайты от оргов, команд и почему я просто обязана поехать в следующем году! 📚 Доклады В одно время идут сразу 3 доклада, поэтому большинство осталось за кадром. Тут топ из тех, которые я посетила: 1️⃣Текущее состояние рынка даты Presto/Trino + K8s + S3, Iceberg, StarRocks, Polars - движется сюда 2️⃣ Куда развивается айсберг Из продвинутого - мат вьюшки, UDF, интероперабельность вьюшек и т.д. Поясняю про вьюшки: Spark создает - Spark читает - ок🤩 Trino создает - Trino читает - ок 🤩 Trino создает - Spark читает - не ок 🤩, а должно быть ок (наоборот тоже) Также есть глобальная проблема: в айсберге фичу могут внедрить, но пройдет много времени, пока движок научится это поддерживать 3️⃣ Про датасеты в Airflow Все супер понятно, с несколькими кейсами, проблемами и решениями. Я взяла контакт, нам может пригодиться 4️⃣ Spark Connect Как раз недавно коллега вкидывал идею использовать Spark Connect для одной задачи, надо будет пересмотреть 5️⃣ Self-service для деплоя витрин в Авито Тут вообще приколдесная штука, они в битбакете в комментах пишут команды dwh test, dwh merge, это проверяют кучи тест-кейсов, есть автоопределение зависимостей, циклических зависимостей. С точки зрения идеи и реализации мне кажется безумно крутым, но вопрос - оно действительно нужно было? 6️⃣ DQ as a Service Интересные фичи: ⁃ проверки группируются, чтобы не спамить каждую ⁃ проверки на месяц могут ссылаться на проверки по дню, чтобы не пересчитывать заново ⁃ ETL-процесс отправляет свой результат, чтобы проверка его переиспользовала ⁃ некоторые проверки на сэмплах данных могут не отличаться от всего объема Уходя в первый день, я услышала мнение: SmartData - это, значит, очень клевое место, если народ в начале докладов разбегается по залам. Это говорит об уровне конфы 🐱 Нетворкинг Тут самое прикольное! Я пообщалась с представителем программного комитета, с ребятами из компаний по поводу их подходов, вживую познакомилась с нашими коллегами, с еще одним автором де канала и его очень крутыми коллегами. Меня даже узнали несколько человек, сказали, что один из адекватных каналов 🙂 Чел из программного комитета поделился, что докладов изначально в 3 раза больше, они ценят уникальность (без написанных статей с хабра и повторов с других конф). Если определенных технологий нет - были слабенькие доклады. Иногда программный комитет хочет сходить на несколько докладов и расставляет так, чтобы они не пересекались)) ✨ Активности и инсайты Активности были на стендах партнеров конфы. Я там познакомилась с организатором мероприятий - вы в курсе, что самый базовый стенд без особых наворотов, подиумов и подсветки уже стоит 1 млн?? Игрулек было достаточно, я набрала себе столько мерча, что уже можно продавать)) Из полезного: 🤩Бросала магнитные дротики. Куда попадешь - такая сложность вопроса, берите на заметку) Junior: SQL-запрос для дубликатов? Зачем нужны индексы в бд? Middle: Как вы настроите мониторинг для пайплайна, чтобы знать, если данные не пришли вовремя? Как обеспечить идемпотентность в пайплайне? Senior: Как вы оцените, когда пора переходить от batch-обработки к streaming-архитектуре? 🤩Собирала архитектуру Это было самое прикольное! Мы клали в реальную корзину реальные технологии и шли сканировать на кассу. Представьте: я купила айсберг. А если вы не знали, то Магнит выкупил Азбуку вкуса Пока собирала архитектуру в Х5, ребята рассказали про крутую собственную разработку. У них много инстансов Airflow, и они синкуются через Redis - там хранятся статусы о состояниях дагов, на которых строятся зависимости. Это просто 🔥 🍓 На сладенькое В конце был глобальный розыгрыш сумки с мерчом от партнеров и билета на следующий год. Представляете, это выиграла я!!!!