Как формируется характер нейросети Когда воспитанный Маском Grok начал называть себя «МехаГитлером», это было забавно, но предсказуемо. С тех пор, как ИИ-чатботы вообще появились, несмотря на все усилия разработчиков оградить их от дурного влияния, они всегда умудрялись научиться плохому. Еще в 2016 Microsoft деактивировала твиттер-бота Tay) через 16 часов после запуска: пообщавшись немного с местными юзерами, она начала постить контент крайне сомнительного содержания. 🔜 С тех пор ИИ становился только умнее и сложнее. Чат-боты уже не повторяют бездумно все, что им пишут пользователи, а языковые модели, на которых они работают, даже приобретают что-то вроде черт характера. Они могут быть злыми, добрыми, вежливыми, оптимистичными, склонными к лести и так далее. В Anthropic решили разобраться, как эти личности формируются и как можно на них влиять во время обучения. Черты «характера» модели представляют собой паттерн активации нейронов внутри нейронной сети — в Anthropic их назвали «векторами личности». Их обнаружили, наблюдая за тем, какие части сети активируются, когда модель демонстрирует определенное поведение: например, льстит или выдумывает факты. Зачем это все надо? 🔵 Следить за тем, как меняется поведение модели: как она реагирует на разные датасеты, использующиеся для обучения, системные промпты, запросы пользователей или джейлбрейки. 🔵Создавать модели, менее склонные к «нежелательному» поведению. В Anthropic обнаружили несколько интересных фактов: 💬 Если у модели уже есть одна отрицательная черта, то со временем их может стать больше. Сегодня она пишет небезопасный код, а завтра Родину продаст, как говорится. 💬 Если «заглушить» вектор, отвечающий за отрицательные черты, они перестанут проявляться, но модель поглупеет — оно и неудивительно, ей ведь буквально отключают часть «мозга». 💬 Более эффективный способ воспитания — подталкивать модель к развитию отрицательных векторов во время обучения. Это работало как прививка, после которой ей было проще сопротивляться негативному влиянию. 🔵 Прогнозировать, как обучение на конкретном датасете повлияет на «характер» модели, и заранее отсеивать данные, которые могут привести к появлению нежелательных черт. Надеемся, что результаты этих исследований помогут разработчиком в создании полезных и умных моделей, не склонных к лести, галлюцинациям или советам добавить камней в пиццу.
Как формируется характер нейросети Когда воспитанный Маском Grok начал называть…
Из этого канала
- #1905ИИ и мировой (почти) рынок труда Недавно OpenAI и Anthropic выложили…
ИИ и мировой (почти) рынок труда Недавно OpenAI и Anthropic выложили исследования про то, как люди пользуются и продуктами.
- #1906S3 Vectors и будущее векторных БД Amazon свое хранилище S3 активно развивает:…
S3 Vectors и будущее векторных БД Amazon свое хранилище S3 активно развивает: сначала добавили S3 Tables, а затем вот S3 Vectors.
- #1907Что я бы сделал по-другому, если бы стал сейчас руководителем? На удивление,…
Что я бы сделал по-другому, если бы стал сейчас руководителем? На удивление, думаю, что стал бы просто сразу более жестким, чем был.
- #1901Когда были в Петербурге, посетили выставку в Русском Музее: «Наш авангард».…
Когда были в Петербурге, посетили выставку в Русском Музее: «Наш авангард». Среди всех других экспонатов хочу выделить отдельный зал, посвященный…
- #1900DOOMQL: Doom на SQL Doom на чем только ни запускали — на картошке,…
DOOMQL: Doom на SQL Doom на чем только ни запускали — на картошке, калькуляторе и тесте на беременность.