"безопасность бэкенда с AI. Мне кажется или эта тема... Ну не то чтобы очень… — @neuralstack

"безопасность бэкенда с AI. Мне кажется или эта тема... Ну не то чтобы очень популярна? примерно так же как infosec всегда был ""важен и интересен"" – __""Нуу да... мы знаем... Да, регуляции, OWASP... все понятно, но как же не хочется этим заниматься! Давайте через пол года, А?""__ Помните про хорадрические кубики? ну так вот точно так же ИИ умножает возможности злоумышленников. нам как системным и программным инженерам важно привыкать к мысли: наш замечательный ИИ-ассистент, или даже ИИ-защитник завтра может стать нашим главным врагом 🤬 Вот пока продолжаются все эти хихи-хаха и вайбкодинг хрень, расцветает полным ходом vibe-hacking агентные ИИ системы помогают открывать новые векторы атак все быстрее и больше, а торчащие куда-то NLI интерфейсы ""наших"" систем можно по всякому эксплуатировать (prompt injection, утечки, уязвимости цепочек доставки и т. д. читайте TOP10) И это все даааалеко не теория: посмотрите например на PoC такого а гента как «pandora» который смог сам раскрыть непрямые prompt-инъекций. Непрямая prompt-инъекция это когда вредоносные промпты проникают через уязвимые тулы и прочее чем может пользоваться атакуемый агент чтобы получать данные откуда то извне. В отличие от прямой инъекции – когда атакуем прямо в лоб в ""чатик"". Вот тут кстати Pliny уже от кодекса системный промпт вытащил :) Короче говоря, картина сводится к следующему: пока народ кайфует от вайбкодинга и публично разрабатывает AI-стартапы (уязвимые и к старым типам атак), конечное число, так или иначе, но очень мотивированных хацкеров травят RAG'и и подкладывают модели с вредоносными биасами на HuggingFace. на коленке сделанные комплаенсы злу только помогают разнообразными детальными публичными отчётами и артефактами 👍 Со всем этим пытается бороться молодой mlsecops, но вот попытки лечить новые угрозы __только старыми__ методами, игнорируя факт что лакомка для атакующих теперь живёт еще и в источниках самих данных и в артефактах модели. Что делать то, особенно если мы хостим модели сами? По списку: — инвентаризация ИИ-стека и AI-SBOM; Ведем и поддерживаем список всех ИИ-деталей: какие модели, датасеты, векторные БД, фреймворки, эндпоинты, версии, что и где крутятся, кто владелец. — изоляция инференса – сервер инференса живёт как причка в клетке: файловая система только для чтения, минимум прав, сеть со строгим allowlist, и никакого доступа к секретам; — Старый добрый zero-trust ко всему чему можно (mTLS, короткоживущие токены, и тд); — рантайм-защита: фильтрация prompt-инъекций, фильтруем вход (в т.ч. невидимые символы/HTML), строго проверяем и ограничиваем инструменты агента (вы же не будете в прод выкатывать mcp с 4 звездами с гитхаба, а?, логируем каждое действие, держим kill-switch рубильник, который нужен обязательно! И ваш агент должен про него знать! Шучу. Или не шучу? — supply-chain-гигиена: никаких автопуллов моделей из интернета; фиксируем версии по хэшам; мониторим перехваты имён моделей (namespace reuse); тестим модели в песочнице. — и туда же следом карантин моделей – любую скачанную модель сначала гоняем в песочнице: запрещаем опасные форматы (pickle/.pt), проверяем хэш/подпись, только потом — в прод. — Ну и хотя бы какой нибудь, но регулярный red teaming по OWASP LLM Top-10 и патч-каденс со SLO. @neuralstack"

Из этого канала