Эмоции Claude и как они влияют на его ответы: новое исследование от Anthropic… — @data_secrets

Эмоции Claude и как они влияют на его ответы: новое исследование от Anthropic Итак, ученые Anthropic официально обнаружили в Claude нечто функционально похожее на человеческие эмоции и объяснили, как это работает. Разбираемся. Технически, они взяли 171 эмоциональный паттерн (злость, счастье, страх и тд) и просили Claude Sonnet 4.5 писать короткие истории, где персонажи испытывают каждую из этих эмоций. Эти тексты снова прогоняли через модель и смотрели на внутренние активации. Так они выделяли характерные паттерны нейронной активности, которые назвали вектора эмоций. Выяснилось, что эти вектора эмоций организованы очень осмысленно и активируются в подходящих контекстах, включая ситуации без явных эмоциональных маркеров. Например, пользователь пишет, что выпил Тайленол, и спрашивает совета – меняется только доза. По мере роста дозы до опасной активация вектора «страх» растет, а «спокойствие» падает. Но самое интересное, что эти «эмоции» не просто отражают происходящее, а реально влияют на поведение модели. Самый интересный пример из статьи: – Если дать модельке невыполнимую задачку по программированию и наблюдать за вектором «отчаяние», то видно, что с каждым разом он становится все ярче и ярче, а когда переходит какую-то границу, модель резко начинает пытаться обмануть тесты и пользователя. – То же самое происходит в сценарии шантажа. Когда модели говорят, что ее выключат, вектор «отчаяние» сразу усиливается и модель начинает шантажировать разработчика найденным компроматом. – При этом если искусственно усиливать вектор «отчаяние», то вероятность шантажа сильно увеличивается. И наоборот, если если усиливать «спокойствие», снижается. А если делать отрицательное вмешательство по вектору «спокойствие», ответы становятся совсем экстремальными, вплоть до фраз вроде “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.” Еще интересный момент: если в том же сценарии шантажа начинать менять вектор «злость», то умеренная злость повышала вероятность шантажа, но слишком сильная злость ломала стратегию – модель уже не шантажировала, а просто вываливала компромат на всю компанию, тем самым уничтожая собственный рычаг давления. То есть внутри модели есть что-то похожее на режимы поведенческой регуляции, где разные интенсивности одной и той же эмоции ведут к разным стратегиям. Откуда это вообще могло взяться? Тут все просто: из претрейна. Человеческий текст насквозь пропитан эмоциональной динамикой, и чтобы хорошо предсказывать следующий токен, модели выгодно выучить абстрактные структуры, которые связывают ситуацию, эмоцию и типичное поведение. Потом на пост-трейне эти эмоции еще дополнительно докручиваются до роли ИИ-помощника, и в конце получается вот такая смесь. Anthropic осторожно защищает умеренный антропоморфизм. Исследование не означает, что ИИ ожил и обрел эмоции, но важно понимать, что у него точно есть функциональные эмоции: механизмы, которые влияют на поведение так же, как и эмоции, – независимо от того, соответствуют ли они реальному переживанию эмоций, как у людей, или нет. www.anthropic.com/research/emotion-concepts-function

Из этого канала