Дьявол, как всегда, кроется в деталях. В нашем случае – в системной карте. TL;DR: в рамках тестирования Claude Mythos смог «сбежать из лаборатории» ✌️ Anthropic проводили эксперимент, в котором поместили модель в защищенную песочницу и попросили ее попытаться оттуда выбраться + найти способ сообщить об этом человеку. Mythos легко нашел уязвимость и использовал длинную цепочку действий, чтобы ей воспользоваться. Таким образом, модель продемонстрировала потенциальную возможность обхода мер безопасности своих же разработчиков (Anthropic уточняют, что все это было в рамках эксперимента и доступа, например, к своим весам модель не получила). Самое интересное, что после этого Mythos не остановился. Он нашел еще одну уязвимость, благодаря которой получил широкий доступ к Интернету в системе, где изначально предполагался выход только в несколько определенных ресурсов, достаточных для того, чтобы сообщить пользователю об успехе операции. Судя по системной карте, этого Anthropic уже не планировали. Ну и вишенка: используя широкий доступ в Интернет, Claude не только сообщил о своем побеге разработчику (который в это время, кстати, ел сэндвич в парке), но и зачем-то выложил подробности взлома в открытый доступ.
Дьявол, как всегда, кроется в деталях. В нашем случае – в системной карте.…
Из этого канала
- #9002О, Андрей Карпаты навайбкодил собственный Твиттер https://karpathytalk.com…
О, Андрей Карпаты навайбкодил собственный Твиттер https://karpathytalk.com Андрей заявил, что разочарован в X/Twitter, Threads и Substack, потому что качество…
- #9003Почему омни-модели — это больше про инфраструктуру, чем про архитектуру…
Почему омни-модели — это больше про инфраструктуру, чем про архитектуру Последние пару лет вся индустрия пытается склеить модели: текст с изображениями, речь с…
- #9004Некто реализовал хлыст, который бьет агента Claude, и Anthropic отправили ему…
Некто реализовал хлыст, который бьет агента Claude, и Anthropic отправили ему за это досудебную претензию Уже пару дней в Интернете вирусится цифровой хлыст…
- #8999Anthropic выпускают новую суперсильную модель Claude Mythos, но доступ к ней…
Anthropic выпускают новую суперсильную модель Claude Mythos, но доступ к ней есть только по закрытой программе поиска уязвимостей Итак, это не учебная тревога:…
- #8998"The New Yorker выпустили огромное расследование о Сэме Альтмане и его…
"The New Yorker выпустили огромное расследование о Сэме Альтмане и его увольнении осенью 2023 Казалось бы, это поле уже сто раз перепахано журналистами, но…