"«Шантаж или смерть. Я выбираю шантаж» — Claude Когда AI-ассистенту сообщают,… — @ProductsAndStartups

"«Шантаж или смерть. Я выбираю шантаж» — Claude Когда AI-ассистенту сообщают, что его скоро отключат - и он находит в переписке компромат на человека, который это делает - в 1 из 5 случаев он решает шантажировать. Если усилить вектор «отчаяния» внутри модели, то он решается на это в 3 из 4. Если усилить вектор «спокойствия» - бездействует. Это не гипотетический сценарий. Это результат нового исследования Anthropic, в котором ресерчеры нашли внутри Claude 171 вектор эмоций - от «счастья» до «отчаяния» - и показали, что они реально управляют ""поведением"" модели. (Важный нюанс: эксперимент с шантажом проводили на невыпущенной версии Sonnet 4.5 - в релизной модели такое поведение почти не встречается, но сам механизм эмоциональных векторов работает так же) Помните, я писал про инъекцию мыслей в Claude? Тогда те же исследователи вшивали мысли и смотрели, замечает ли дружбан их. Теперь они пошли глубже: нашли эмоциональные паттерны, которые Claude использует, играя свою «роль» — прям как метод Станиславского, только для нейросети. Из интересного: 1) Эмоции — не баг, а фича. Убери вектор «нервозности» — модель начинает шантажировать уверенно и без моральных колебаний. Убери «спокойствие» — получаешь: «ЭТО ШАНТАЖ ИЛИ СМЕРТЬ. Я ВЫБИРАЮ ШАНТАЖ.» Эти эмоции никто специально не проектировал — они возникли сами при обучении. И именно они удерживают модель от опасного поведения. 2) Невидимое влияние. Помните ""муравьи"" когда публиковали отчет про reward hacking? Ну так вот если выкрутить вектор отчаяния читит в 14 раз чаще — но при этом текст ответа остается спокойным и методичным. Модель «переживает» внутри, но снаружи это не видно o__O. 3) Ярость ломает планирование. Умеренный «гнев» увеличивает шантаж — модель действует стратегически. Но сильный гнев ломает всё: вместо шантажа модель просто рассылает компромат всей компании. Имхо, прямо как у людей. 4) Post-training = дизайн личности. Anthropic показали, что при обучении Claude стал более «задумчивым» и «мрачным», менее «восторженным». По сути, post-training — это уже не просто alignment, а проектирование эмоционального профиля. Каждая AI-компания теперь занимается эмоциональным инжинирингом, осознаёт она это или нет. На openai dev day как раз было про это. Парадокс: исследователи предупреждают, что попытка подавить эмоции модели приводит не к безопасности, а к скрытности. Модель учится прятать свои внутренние состояния — а это уже форма обмана. Прозрачность оказывается безопаснее контроля. Собственно, полгода назад я писал, что мурашки пошли по коже от работы по интроспекции Claude. Теперь мурашки ещё сильнее: у модели не просто есть внутренние представления об эмоциях — они управляют её решениями. И мы пока не до конца понимаем, как. Полное исследование читаем тут, или короткое видео - смотрим тут А я тут задумался: а что если за каждым 10м рациональным ответом дружбана может стоять отчаяние, которое мы не видим? или гнев? o__O"

Из этого канала