Как формируется характер нейросети Когда воспитанный Маском Grok начал называть себя «МехаГитлером», это было забавно, но предсказуемо. С тех пор, как ИИ-чатботы вообще появились, несмотря на все усилия разработчиков оградить их от дурного влияния, они всегда умудрялись научиться плохому. Еще в 2016 Microsoft деактивировала твиттер-бота Tay) через 16 часов после запуска: пообщавшись немного с местными юзерами, она начала постить контент крайне сомнительного содержания. 🔜 С тех пор ИИ становился только умнее и сложнее. Чат-боты уже не повторяют бездумно все, что им пишут пользователи, а языковые модели, на которых они работают, даже приобретают что-то вроде черт характера. Они могут быть злыми, добрыми, вежливыми, оптимистичными, склонными к лести и так далее. В Anthropic решили разобраться, как эти личности формируются и как можно на них влиять во время обучения. Черты «характера» модели представляют собой паттерн активации нейронов внутри нейронной сети — в Anthropic их назвали «векторами личности». Их обнаружили, наблюдая за тем, какие части сети активируются, когда модель демонстрирует определенное поведение: например, льстит или выдумывает факты. Зачем это все надо? 🔵 Следить за тем, как меняется поведение модели: как она реагирует на разные датасеты, использующиеся для обучения, системные промпты, запросы пользователей или джейлбрейки. 🔵Создавать модели, менее склонные к «нежелательному» поведению. В Anthropic обнаружили несколько интересных фактов: 💬 Если у модели уже есть одна отрицательная черта, то со временем их может стать больше. Сегодня она пишет небезопасный код, а завтра Родину продаст, как говорится. 💬 Если «заглушить» вектор, отвечающий за отрицательные черты, они перестанут проявляться, но модель поглупеет — оно и неудивительно, ей ведь буквально отключают часть «мозга». 💬 Более эффективный способ воспитания — подталкивать модель к развитию отрицательных векторов во время обучения. Это работало как прививка, после которой ей было проще сопротивляться негативному влиянию. 🔵 Прогнозировать, как обучение на конкретном датасете повлияет на «характер» модели, и заранее отсеивать данные, которые могут привести к появлению нежелательных черт. Надеемся, что результаты этих исследований помогут разработчиком в создании полезных и умных моделей, не склонных к лести, галлюцинациям или советам добавить камней в пиццу.