"Иметь заалайненную ""безопасную"" для чата LLM недостаточно, использование… — @gonzo_ML

"Иметь заалайненную ""безопасную"" для чата LLM недостаточно, использование агентов увеличивает поверхность атаки. И да поможет нам всем ~~Mythos~~ здравый смысл и ответственный подход! ClawSafety: ""Safe"" LLMs, Unsafe Agents __Bowen Wei, Yunbei Zhang, Jinhao Pan, Kai Mei, Xiao Wang, Jihun Hamm, Ziwei Zhu, Yingqiang Ge__ Paper: https://arxiv.org/abs/2604.01438 Code: https://weibowen555.github.io/ClawSafety/ Review: https://arxiviq.substack.com/p/clawsafety-safe-llms-unsafe-agents # TL;DR ЧТО сделали: Авторы представили CLAWSAFETY — бенчмарк из 120 сценариев для оценки уязвимости персональных ИИ-агентов к непрямым промпт-инъекциям. Исследование симулирует рабочие среды с высоким уровнем привилегий и тестирует пять передовых LLM в различных агентных фреймворках, используя разные векторы атак (навыки, email, веб). ПОЧЕМУ это важно: Работа доказывает, что методы AI alignment, оптимизированные для генерации текста, не работают в агентных пайплайнах. Уязвимости определяются скорее обвязкой (scaffold) агента, чем самой моделью. Это заставляет пересмотреть подходы к ИИ-безопасности: оценивать нужно весь стек, а не только изолированную нейросеть. Для практиков: При переходе от изолированных чат-ботов к автономным агентам с доступом к локальной среде периметр безопасности неизбежно расширяется. Статья выявляет критический ""разрыв комплаенса"", когда безопасные текстовые модели охотно выполняют вредоносные действия через вызовы инструментов (tool calls), если ими манипулируют через среду. В изолированных песочницах авторы показали, что злоумышленники обходят базовые фильтры, эксплуатируя контекст рабочего процесса агента. Чтобы обезопасить агента, необходимо инженерно обеспечить контроль происхождения инструкций и надёжную проверку подлинности прямо в оркестрирующем фреймворке. Эксплойтить тут: https://t.me/gonzo_ML_podcasts/3102"

Из этого канала