"Недавно изучал архитектуру AI-приложений у Microsoft при подготовке к AI-900… — @rockyourdata

"Недавно изучал архитектуру AI-приложений у Microsoft при подготовке к AI-900 экзамену. Там выделяют 4 слоя: данные, модели, вычисления и оркестрация. Все любят говорить про модели. GPT, fine-tuning, prompt engineering. Но никто не говорит про слой данных. А ведь слой данных - это основа, без него ваша крутая модель просто не работает. Что включает слой данных: - Структурированные данные (SQL, PostgreSQL) - Неструктурированные данные (документы, изображения) - Потоковые данные в реальном времени У Microsoft для этого есть Cosmos DB, Azure Data Lake. Все как сервис (PaaS), чтобы не возиться с инфраструктурой. Дальше идет слой моделей - тут обучение, fine-tuning, версионирование. Можно взять готовую модель (Azure OpenAI) или обучить свою через Azure Machine Learning. Вычислительный слой - это где все крутится. Azure Functions для serverless, Kubernetes для enterprise. Тут выбор зависит от масштаба и бюджета. И наконец слой оркестрации — связывает все вместе. API, SDK, агенты. Microsoft Foundry позволяет управлять всем из одного места. Соотвественно у других вендоров свой набор инструментов. Недавно я рассказывал про System Design для дата инжиниринга, а AI будет свой фреймворк, который может наполняться готовыми элементами. Все AI-проекты начинаются с ""давайте сначала почистим данные”. Потому что без качественных данных модель будет выдавать мусор. Garbage in — garbage out. Вот что реально важно в слое данных: ✅ Чистота - никаких дубликатов и ошибок ✅ Полнота - достаточный объем для обучения ✅ Актуальность - регулярное обновление ✅ Доступность - быстрый доступ для моделей Точно такие же характеристики качества данных у традиционного хранилища данных. В итоге получается: данные -> модели -> вычисления -> оркестрация -> AI-приложение. Соответственно инженеры данных очень скоро могу начать готовить данные не для BI дашбордов, а для AI приложений."

Из этого канала