"«Шантаж или смерть. Я выбираю шантаж» — Claude Когда AI-ассистенту сообщают, что его скоро отключат - и он находит в переписке компромат на человека, который это делает - в 1 из 5 случаев он решает шантажировать. Если усилить вектор «отчаяния» внутри модели, то он решается на это в 3 из 4. Если усилить вектор «спокойствия» - бездействует. Это не гипотетический сценарий. Это результат нового исследования Anthropic, в котором ресерчеры нашли внутри Claude 171 вектор эмоций - от «счастья» до «отчаяния» - и показали, что они реально управляют ""поведением"" модели. (Важный нюанс: эксперимент с шантажом проводили на невыпущенной версии Sonnet 4.5 - в релизной модели такое поведение почти не встречается, но сам механизм эмоциональных векторов работает так же) Помните, я писал про инъекцию мыслей в Claude? Тогда те же исследователи вшивали мысли и смотрели, замечает ли дружбан их. Теперь они пошли глубже: нашли эмоциональные паттерны, которые Claude использует, играя свою «роль» — прям как метод Станиславского, только для нейросети. Из интересного: 1) Эмоции — не баг, а фича. Убери вектор «нервозности» — модель начинает шантажировать уверенно и без моральных колебаний. Убери «спокойствие» — получаешь: «ЭТО ШАНТАЖ ИЛИ СМЕРТЬ. Я ВЫБИРАЮ ШАНТАЖ.» Эти эмоции никто специально не проектировал — они возникли сами при обучении. И именно они удерживают модель от опасного поведения. 2) Невидимое влияние. Помните ""муравьи"" когда публиковали отчет про reward hacking? Ну так вот если выкрутить вектор отчаяния читит в 14 раз чаще — но при этом текст ответа остается спокойным и методичным. Модель «переживает» внутри, но снаружи это не видно o__O. 3) Ярость ломает планирование. Умеренный «гнев» увеличивает шантаж — модель действует стратегически. Но сильный гнев ломает всё: вместо шантажа модель просто рассылает компромат всей компании. Имхо, прямо как у людей. 4) Post-training = дизайн личности. Anthropic показали, что при обучении Claude стал более «задумчивым» и «мрачным», менее «восторженным». По сути, post-training — это уже не просто alignment, а проектирование эмоционального профиля. Каждая AI-компания теперь занимается эмоциональным инжинирингом, осознаёт она это или нет. На openai dev day как раз было про это. Парадокс: исследователи предупреждают, что попытка подавить эмоции модели приводит не к безопасности, а к скрытности. Модель учится прятать свои внутренние состояния — а это уже форма обмана. Прозрачность оказывается безопаснее контроля. Собственно, полгода назад я писал, что мурашки пошли по коже от работы по интроспекции Claude. Теперь мурашки ещё сильнее: у модели не просто есть внутренние представления об эмоциях — они управляют её решениями. И мы пока не до конца понимаем, как. Полное исследование читаем тут, или короткое видео - смотрим тут А я тут задумался: а что если за каждым 10м рациональным ответом дружбана может стоять отчаяние, которое мы не видим? или гнев? o__O"
"«Шантаж или смерть. Я выбираю шантаж» — Claude Когда AI-ассистенту сообщают,…
Из этого канала
- #1711Если вы прочитали хотя бы 3 поста в этом канале, то могли заметить, что я…
Если вы прочитали хотя бы 3 поста в этом канале, то могли заметить, что я частенько проставляю ссылки на свои старые посты, иногда написанные несколько лет…
- #1712colleague.skill: дистиллируй или будь дистиллирован Я как-то писал, как в…
colleague.skill: дистиллируй или будь дистиллирован Я как-то писал, как в Пекине лимитируют туалетную бумагу технологией распознавания лиц.
- #1713Запись вебинара с разбором исходников Claude Code:…
Запись вебинара с разбором исходников Claude Code: https://www.youtube.com/watch?v=Cgeg58DYIk А если хотите научиться строить таких агентов - велком на 4й…
- #1709"Пока ты читаешь ответ Claude, он уже пишет следующий (это я изучаю сорсы…
"Пока ты читаешь ответ Claude, он уже пишет следующий (это я изучаю сорсы Claude Code).
- #1705Простите, но это очень смешно - новая фича в Телеге по переписыванию сообщений.…
Простите, но это очень смешно - новая фича в Телеге по переписыванию сообщений. На первом скриншоте мое сообщение, далее - разные варианты оригинального…