"Архитектура BootCamp для бабушек | Часть 1 Значит, идея возникла давно. Где-то еще при Сталине. Очень бесит, что люди говорят, что на рынке нет релевантных спецов, при этом сами ничего для этого не делают. Спрашивается, откуда возьмутся сеньоры, если мы сейчас не выучим и не вкатим джунов. Буткемп это мини-копия реальной работы. Т.е. у вас есть Airflow, S3, Spark, Kafka, PG, VSCode, CH, Github, CICD и так далее. И все это взаимосвязано и развернуто на сервере (удаленно). С самого первого дня можно залогиниться, понажимать кнопки, закинуть свой код на сервер через Deploy и посмотреть, как оно работает. И потом на реальном собесе можно смело говорить, что у вас есть ОПЫТ. Да, он не связан с Тб данных, но и не на всех работах у вас будут Тб если что.. И кстати лучше меньше данных, чем много -- они тупо быстрее считаются и с ними меньше проблем по ресурсам. Итак. Как оно работает оч коротко. Сервер это линукс машина. На ней установлен docker. Докер позволяет запускать ваши программы изолировано от всего мира (их еще называют контейнеры). Ну т.е. можно настроить версии библиотек, языков и так далее в рамках каждого контейнера. И каждый инструмент (airflow, s3, ...) запускается, как отдельный контейнер. Вот например есть PG (постгрес), S3 и VSCode. Это три контейнера. И пусть мы установим внутри VSCode библиотеку pyspark (именно как библиотеку). Мы хотим например взять наш Spark и прочитать им данные из PG и сохранить в S3. Спарк тут может еще и трансформировать, очистить, преобразовать данные. И вот чтобы это работало четко, надо сделать так, чтобы все три контейнера могли видеть друг друга. Я же писал, что они изолированно запускаются от внешнего мира. Поэтому можно прокинуть общую сеть (типа как у компов в компьютерном зале). Тогда контейнеры могут видеть порты друг друга и уже можно наладить переправку данных. Но есть еще момент. Весь бекенд Airflow лежит в PG. И для него надо поднимать свой контейнер. Но и мы хотим в PG хранить например синтетические данные. Как быть? Ну можно создать рядом схемы или БД внутри постгреса и прекрасно жить. Можно! И это сильно экономит ресурсы сервера. У нас же всего один контейнер! Но этот вариант хороший только для пет проекта. Если вы хотите разворачивать для нескольких людей - там начинаются нюансы. ▶️ Для тех, кто пропустил СТРИМ, где показываю BootCamp Бот для просмотра YouTube @NamelessNetwork_bot Промокод: DE (FREE 2 недели) Так же в боте можно приобрести роутер со встроенным ""ускорителем"" YouTube на всех домашних устройствах по единой подписке. О нюансах расскажу во ВТОРОЙ ЧАСТИ!"
"Архитектура BootCamp для бабушек | Часть 1 Значит, идея возникла давно. Где-то…
Источник
https://t.me/halltape_data/613Канал Я – Дата Инженер | Евгений Виндюков · опубликовано 27 июн. 2025 г.
Из этого канала
- #614История успеха! На самом деле нам много, кто пишет с благодарностями по поводу…
История успеха! На самом деле нам много, кто пишет с благодарностями по поводу Roadmap. И мы все тупили и никуда не выкладывали.
- #615🔥 Обновление Roadmap для дата-инженеров! Если кто еще не видел ➡️РОАДМАП…
🔥 Обновление Roadmap для дата-инженеров! Если кто еще не видел ➡️РОАДМАП Добавили сразу несколько новых разделов: 🔵Индексы и партиции — must-know для любого DE…
- #616🔨 Ребят, вопрос! Удобно ли вам пользоваться Roadmap? Например заходите на…
🔨 Ребят, вопрос! Удобно ли вам пользоваться Roadmap? Например заходите на гитхаб, листаете вниз, а чтобы вернуться в оглавление, надо опять листать, но уже…
- #610https://t.me/+p-0NiSWmQ5ZhZmEy Здесь обсуждаем BootCamp и жаркое обсуждение…
https://t.me/+p-0NiSWmQ5ZhZmEy Здесь обсуждаем BootCamp и жаркое обсуждение инфры!
- #608⭕️ Открываем доступ к BootCamp! Старутем стрим через 10 минут! Можете пока туда…
⭕️ Открываем доступ к BootCamp! Старутем стрим через 10 минут! Можете пока туда заходить и прогреваться! 📍 Где: https://www.twitch.tv/halltape Что будет на…