Disrupting the first reported AI-orchestrated cyber espionage campaign… — @seeallochnaya

Disrupting the first reported AI-orchestrated cyber espionage campaign Anthropic считают, что настал момент, когда модели стали действительно полезными в кибербезопасности, как для защиты, так и для атак. Про защиту я уже писал — Google сделали систему на основе LLM, которая анализирует код и помогает находить уязвимости. Anthropic выявили злоумышленников, которые пользовались Claude Code, чтобы попытаться атаковать примерно тридцать целей, и в небольшом числе случаев им удалось это сделать. Компания с высокой уверенностью идентифицировала атакующих как группу, поддерживаемую китайским правительством. Операция была направлена на крупные технологические компании, финансовые институты, химические производства и государственные учреждения. Вероятно, это первый документально подтверждённый случай крупномасштабной кибератаки, осуществлённой без значительного участия человека. Почему именно сейчас? Anthropic видят три причины: — Интеллект моделей. Общий уровень вырос за последний год настолько, что LLM способны выполнять сложные инструкции и понимать контекст задач, требующих несколько часов работы. Особенно прокачалось программирование. — Автономность. Модели могут выступать в роли агентов, то есть работать в цикле, автономно выполнять действия, декомпозировать задачи и принимать решения сами. — Инструменты. Модели стали гораздо лучше искать информацию в интернете, извлекать данные, пользоваться инструментами. В случае кибератак такие инструменты могут включать программы для взлома паролей, сканеры сетей и другое ПО. Атака состояла из 5 этапов, на каждом из которых нужно было убедить Claude — который тщательно обучен избегать вредоносных действий — участвовать в атаке. Они добились этого с помощью джейлбрейк-промптов, фактически обманув модель. Задачи разбивались на мелкие, казалось бы, безобидные действия, которые Claude выполнял, не осознавая всей их вредоносной сути. Также модель заставили отыгрывать роль сотрудника легитимной фирмы по кибербезопасности, мол, она используется для проведения защитного тестирования. Claude Code провёл инспекцию систем и инфраструктуры целевых организаций, обнаружив базы данных с наибольшей ценностью. Модель смогла выполнить эту «разведку» за малую долю времени, которое потребовалось бы группе хакеров-людей. Затем Claude использовался для сбора учётных данных (имён пользователей и паролей), что позволило ему получить дополнительный доступ и извлечь большое количество конфиденциальных данных, которые он классифицировал по степени их значимости. Были обранужены аккаунты с наивысшими привилегиями, и пользуясь их данными созданы новые, выглядящие легитимно, но позволяющие в будущем получать неправомерный доступ к данным, которые можно скачать/итд. Claude не всегда работал идеально. Иногда он «галлюцинировал» данные учётных записей или утверждал, что получил секретную информацию, которая на самом деле была общедоступной и не требовала отдельных прав доступа. Anthropic забанили все аккаунты, связанные с этой атакой, связались с атакованными компаниями и предупредили их. В конце они отвечают на вопрос: а зачем вообще выпускать модели, которые могут быть инструментами в руках плохих людей? Ответ состоит в том, что те самые способности, которые позволяют использовать Claude в подобных атаках, также делают его незаменимым инструментом в киберзащите. ⚔️ 🛡

Из этого канала