Про безопасность AI-агентов. Все думали, что надо защищать мир от AI, даже законов запретительных разных напринимали - как бы чего не вышло. А сейчас по факту надо самих AI-агентов защищать от людей. Точнее от недобросовестных пользователей, которые хотят взломать агентов. Моего агента по бенчмаркингу цен на госзакупках, например пытаются ломануть пару раз в неделю. Пытались заставить его: - выдать системный промпт, - удалить папку на сервере, - слить базу клиентов компании, - ну или просто отвечать то, на что он не был изначально настроен. Самые распространенные атаки: промпт-инъекция и джейлбрейк. Как защититься? Есть разные методы защиты. В основном это фильтры на входе и выходе ответа модели. Но все они ломаются так или иначе. Самый простой и надежный способ защититься - при разработке агента держать в уме принцип летальной триады. Его сформулировал Simon Willison в июне 2025. Летальная триада для AI-агентов: 1) доступ к приватным данным 2) возможность внешних коммуникаций 3) обработка данных из недостоверных источников Если AI-агент набирает бинго (все три) по этим опциям - он уязвим. А значит его ломанут рано или поздно. Конечно, если только это не Агент-Неуловимый-Джо из анекдота: кому он нафиг нужен, гоняться за ним 🙂 Достаточно убрать один любой пункт, чтобы сделать атаку невозможной. В моем случае, я не давал агенту доступа к приватным данным. Он не сможет слить того, чего не знает 🙂 И не сможет выполнить какую-то опасную необратимую функцию (вроде отправки данных куда-то или повреждения данных).
Про безопасность AI-агентов. Все думали, что надо защищать мир от AI, даже…
Источник
https://t.me/vitaliytrenkenshu/128Канал Vitaliy Trenkenshu (Datanomix) · опубликовано 19 окт. 2025 г.
Из этого канала
- #129Казахстанский стартап научил ИИ понимать закупки. Вот как это поможет бизнесу…
Казахстанский стартап научил ИИ понимать закупки. Вот как это поможет бизнесу Крупные казахстанские компании стабильно теряют часть выделенных на закупки…
- #130"Про декомпозицию ИИ-агентов Работая над системой агентов в redflags.ai, я всё…
"Про декомпозицию ИИ-агентов Работая над системой агентов в redflags.ai, я всё время возвращаюсь к одному вопросу: Нужно ли дробить всё на много агентов, или…
- #131"Evaluation AI-Агентов: метрики LLM штука капризная и ненадёжная. Как и человек…
"Evaluation AI-Агентов: метрики LLM штука капризная и ненадёжная. Как и человек в целом.
- #127"Сделал AI-помощника для специалистов по закупкам Казахстана. Он помогает…
"Сделал AI-помощника для специалистов по закупкам Казахстана. Он помогает понять рыночную цену на товар на госзакупках.
- #126"В этом выпуске подкаста ""AI Ойбай"" вы узнаете: • Как получить скидку 5% на…
"В этом выпуске подкаста ""AI Ойбай"" вы узнаете: • Как получить скидку 5% на инвестиции с помощью GPT: Чат GPT выступил в роли лидогенератора и помог Виталию…