Про безопасность AI-агентов. Все думали, что надо защищать мир от AI, даже… — @vitaliytrenkenshu

Про безопасность AI-агентов. Все думали, что надо защищать мир от AI, даже законов запретительных разных напринимали - как бы чего не вышло. А сейчас по факту надо самих AI-агентов защищать от людей. Точнее от недобросовестных пользователей, которые хотят взломать агентов. Моего агента по бенчмаркингу цен на госзакупках, например пытаются ломануть пару раз в неделю. Пытались заставить его: - выдать системный промпт, - удалить папку на сервере, - слить базу клиентов компании, - ну или просто отвечать то, на что он не был изначально настроен. Самые распространенные атаки: промпт-инъекция и джейлбрейк. Как защититься? Есть разные методы защиты. В основном это фильтры на входе и выходе ответа модели. Но все они ломаются так или иначе. Самый простой и надежный способ защититься - при разработке агента держать в уме принцип летальной триады. Его сформулировал Simon Willison в июне 2025. Летальная триада для AI-агентов: 1) доступ к приватным данным 2) возможность внешних коммуникаций 3) обработка данных из недостоверных источников Если AI-агент набирает бинго (все три) по этим опциям - он уязвим. А значит его ломанут рано или поздно. Конечно, если только это не Агент-Неуловимый-Джо из анекдота: кому он нафиг нужен, гоняться за ним 🙂 Достаточно убрать один любой пункт, чтобы сделать атаку невозможной. В моем случае, я не давал агенту доступа к приватным данным. Он не сможет слить того, чего не знает 🙂 И не сможет выполнить какую-то опасную необратимую функцию (вроде отправки данных куда-то или повреждения данных).

Из этого канала