Дьявол, как всегда, кроется в деталях. В нашем случае – в системной карте. TL;DR: в рамках тестирования Claude Mythos смог «сбежать из лаборатории» ✌️ Anthropic проводили эксперимент, в котором поместили модель в защищенную песочницу и попросили ее попытаться оттуда выбраться + найти способ сообщить об этом человеку. Mythos легко нашел уязвимость и использовал длинную цепочку действий, чтобы ей воспользоваться. Таким образом, модель продемонстрировала потенциальную возможность обхода мер безопасности своих же разработчиков (Anthropic уточняют, что все это было в рамках эксперимента и доступа, например, к своим весам модель не получила). Самое интересное, что после этого Mythos не остановился. Он нашел еще одну уязвимость, благодаря которой получил широкий доступ к Интернету в системе, где изначально предполагался выход только в несколько определенных ресурсов, достаточных для того, чтобы сообщить пользователю об успехе операции. Судя по системной карте, этого Anthropic уже не планировали. Ну и вишенка: используя широкий доступ в Интернет, Claude не только сообщил о своем побеге разработчику (который в это время, кстати, ел сэндвич в парке), но и зачем-то выложил подробности взлома в открытый доступ.