"Иметь заалайненную ""безопасную"" для чата LLM недостаточно, использование агентов увеличивает поверхность атаки. И да поможет нам всем ~~Mythos~~ здравый смысл и ответственный подход! ClawSafety: ""Safe"" LLMs, Unsafe Agents __Bowen Wei, Yunbei Zhang, Jinhao Pan, Kai Mei, Xiao Wang, Jihun Hamm, Ziwei Zhu, Yingqiang Ge__ Paper: https://arxiv.org/abs/2604.01438 Code: https://weibowen555.github.io/ClawSafety/ Review: https://arxiviq.substack.com/p/clawsafety-safe-llms-unsafe-agents # TL;DR ЧТО сделали: Авторы представили CLAWSAFETY — бенчмарк из 120 сценариев для оценки уязвимости персональных ИИ-агентов к непрямым промпт-инъекциям. Исследование симулирует рабочие среды с высоким уровнем привилегий и тестирует пять передовых LLM в различных агентных фреймворках, используя разные векторы атак (навыки, email, веб). ПОЧЕМУ это важно: Работа доказывает, что методы AI alignment, оптимизированные для генерации текста, не работают в агентных пайплайнах. Уязвимости определяются скорее обвязкой (scaffold) агента, чем самой моделью. Это заставляет пересмотреть подходы к ИИ-безопасности: оценивать нужно весь стек, а не только изолированную нейросеть. Для практиков: При переходе от изолированных чат-ботов к автономным агентам с доступом к локальной среде периметр безопасности неизбежно расширяется. Статья выявляет критический ""разрыв комплаенса"", когда безопасные текстовые модели охотно выполняют вредоносные действия через вызовы инструментов (tool calls), если ими манипулируют через среду. В изолированных песочницах авторы показали, что злоумышленники обходят базовые фильтры, эксплуатируя контекст рабочего процесса агента. Чтобы обезопасить агента, необходимо инженерно обеспечить контроль происхождения инструкций и надёжную проверку подлинности прямо в оркестрирующем фреймворке. Эксплойтить тут: https://t.me/gonzo_ML_podcasts/3102"
"Иметь заалайненную ""безопасную"" для чата LLM недостаточно, использование…
Из этого канала
- #5121Drop-in замена индексатора для разреженного внимания в трансформерах типа…
Drop-in замена индексатора для разреженного внимания в трансформерах типа DeepSeek. Ускорение в 3.75 раза на инференсе.
- #5126Это что-то очень прикольное! Вычисление — это постоянное обновление латентов.…
Это что-то очень прикольное! Вычисление — это постоянное обновление латентов. Нейрокомпьютер на базе диффузионки.
- #5133Ещё одна работа про анализ ИИ-автоматизации. Crashing Waves vs. Rising Tides:…
Ещё одна работа про анализ ИИ-автоматизации. Crashing Waves vs. Rising Tides: Preliminary Findings on AI Automation from Thousands of Worker Evaluations of…
- #5111Что мы всё про агентов, да про ИИ. Вот вам для разнообразия пара чудес…
Что мы всё про агентов, да про ИИ. Вот вам для разнообразия пара чудес инженерной мысли из музея транспорта в Ковентри.
- #5105Зачем агентам нужна интуитивная физика. Grounding Social Perception in…
Зачем агентам нужна интуитивная физика. Grounding Social Perception in Intuitive Physics Lance Ying, Aydan Y.