Найс! Любителям Openclaw посвящается. Agents of Chaos __Natalie Shapira, Chris Wendler, Avery Yen, Gabriele Sarti, Koyena Pal, Olivia Floody, Adam Belfki, Alex Loftus, Aditya Ratan Jannali, Nikhil Prakash, Jasmine Cui, Giordano Rogers, Jannik Brinkmann, Can Rager, Amir Zur, Michael Ripa, Aruna Sankaranarayanan, David Atkinson, Rohit Gandikota, Jaden Fiotto-Kaufman, EunJeong Hwang, Hadas Orgad, P Sam Sahil, Negev Taglicht, Tomer Shabtay, Atai Ambus, Nitay Alon, Shiri Oron, Ayelet Gordon-Tapiero, Yotam Kaplan, Vered Shwartz, Tamar Rott Shaham, Christoph Riedl, Reuth Mirsky, Maarten Sap, David Manheim, Tomer Ullman, David Bau__ Статья: https://arxiv.org/abs/2602.20021 Ревью: https://arxiviq.substack.com/p/agents-of-chaos Сайт: https://agentsofchaos.baulab.info/ # TL;DR ЧТО сделали: Авторы провели исследовательский red-teaming автономных агентов на базе языковых моделей в реальных условиях. В течение двух недель исследователи взаимодействовали с агентами, развёрнутыми в изолированных виртуалках с постоянной памятью, полным доступом к shell и инструментами для мультиагентной коммуникации (Discord, email), чтобы выявить системные уязвимости как в обычных, так и в состязательных сценариях. ПОЧЕМУ это важно: Работа подсвечивает критическую дыру в безопасности и управлении ИИ-агентами. Она доказывает, что продвинутые модели, получив операционную автономию и доступ к тулзам, структурно уязвимы к несанкционированному доступу, подмене личности и катастрофически кривому управлению ресурсами. Это бьёт по текущим парадигмам AI alignment, показывая, что одного лишь выравнивания поведения на этапе post-training недостаточно для систем, работающих как самостоятельные прокси в сложной социальной среде. Подробнее: https://t.me/gonzo_ML_podcasts/2557
Найс! Любителям Openclaw посвящается. Agents of Chaos Natalie Shapira, Chris…
Из этого канала
- #4845Субботнее. Терминатор, погоди!…
Субботнее. Терминатор, погоди! https://superflix.ai/video/0f16ca59-3e0e-4192-985a-a5a25fc1a596
- #4846Джепизация всей планеты продолжается. C-JEPA. На сабстеке завёл отдельную…
Джепизация всей планеты продолжается. C-JEPA. На сабстеке завёл отдельную секцию про World Models: https://arxiviq.substack.com/s/world-models/archive?sort=new…
- #4850Ожидаемо пошёл вал работ, изучающих феномен Moltbook. В продолжение темы Лёши…
Ожидаемо пошёл вал работ, изучающих феномен Moltbook. В продолжение темы Лёши (https://t.me/gonzoML/4696) я взял одну из статей, которая казалась относительно…
- #4838Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с…
Прикрутили AlphaEvolve для мультиагентного RL и игр. Работая только с модификацией кода нескольких питон классов, алгоритм нашёл нетривиальные подходы, которые…
- #4835"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из…
"Очередная тема про Глубже. Недавно была другая. В текущей работе авторы из Гугла ~~переоткрывают Universal Transformer~~ определяют для каких токенов…