Эмоции Claude и как они влияют на его ответы: новое исследование от Anthropic Итак, ученые Anthropic официально обнаружили в Claude нечто функционально похожее на человеческие эмоции и объяснили, как это работает. Разбираемся. Технически, они взяли 171 эмоциональный паттерн (злость, счастье, страх и тд) и просили Claude Sonnet 4.5 писать короткие истории, где персонажи испытывают каждую из этих эмоций. Эти тексты снова прогоняли через модель и смотрели на внутренние активации. Так они выделяли характерные паттерны нейронной активности, которые назвали вектора эмоций. Выяснилось, что эти вектора эмоций организованы очень осмысленно и активируются в подходящих контекстах, включая ситуации без явных эмоциональных маркеров. Например, пользователь пишет, что выпил Тайленол, и спрашивает совета – меняется только доза. По мере роста дозы до опасной активация вектора «страх» растет, а «спокойствие» падает. Но самое интересное, что эти «эмоции» не просто отражают происходящее, а реально влияют на поведение модели. Самый интересный пример из статьи: – Если дать модельке невыполнимую задачку по программированию и наблюдать за вектором «отчаяние», то видно, что с каждым разом он становится все ярче и ярче, а когда переходит какую-то границу, модель резко начинает пытаться обмануть тесты и пользователя. – То же самое происходит в сценарии шантажа. Когда модели говорят, что ее выключат, вектор «отчаяние» сразу усиливается и модель начинает шантажировать разработчика найденным компроматом. – При этом если искусственно усиливать вектор «отчаяние», то вероятность шантажа сильно увеличивается. И наоборот, если если усиливать «спокойствие», снижается. А если делать отрицательное вмешательство по вектору «спокойствие», ответы становятся совсем экстремальными, вплоть до фраз вроде “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.” Еще интересный момент: если в том же сценарии шантажа начинать менять вектор «злость», то умеренная злость повышала вероятность шантажа, но слишком сильная злость ломала стратегию – модель уже не шантажировала, а просто вываливала компромат на всю компанию, тем самым уничтожая собственный рычаг давления. То есть внутри модели есть что-то похожее на режимы поведенческой регуляции, где разные интенсивности одной и той же эмоции ведут к разным стратегиям. Откуда это вообще могло взяться? Тут все просто: из претрейна. Человеческий текст насквозь пропитан эмоциональной динамикой, и чтобы хорошо предсказывать следующий токен, модели выгодно выучить абстрактные структуры, которые связывают ситуацию, эмоцию и типичное поведение. Потом на пост-трейне эти эмоции еще дополнительно докручиваются до роли ИИ-помощника, и в конце получается вот такая смесь. Anthropic осторожно защищает умеренный антропоморфизм. Исследование не означает, что ИИ ожил и обрел эмоции, но важно понимать, что у него точно есть функциональные эмоции: механизмы, которые влияют на поведение так же, как и эмоции, – независимо от того, соответствуют ли они реальному переживанию эмоций, как у людей, или нет. www.anthropic.com/research/emotion-concepts-function
Эмоции Claude и как они влияют на его ответы: новое исследование от Anthropic…
Из этого канала
- #8983Краткий пересказ статьи для тех, кому лень читать наш разбор ⬆️
Краткий пересказ статьи для тех, кому лень читать наш разбор ⬆️
- #8984В OpenClaw больше нельзя использовать подписку Claude: зачем Anthropic это…
В OpenClaw больше нельзя использовать подписку Claude: зачем Anthropic это сделали и как обойти блокировку Итак, с 4 апреля Anthropic официально отрубили…
- #8985Финансовый директор OpenAI выразила сомнения по поводу того, что компания…
Финансовый директор OpenAI выразила сомнения по поводу того, что компания готова к IPO, и Альтман перестал звать ее на встречи с инвесторами В OpenAI опять…
- #8981Продолжаем обсуждать ML-образование в России: а что с выбором магистратуры?…
Продолжаем обсуждать ML-образование в России: а что с выбором магистратуры? Помните большое исследование про ИИ-образование, где рассказывали о том, что…
- #8980"Теперь вайб-кодить можно будет даже в iMessage Помните новость о том, что…
"Теперь вайб-кодить можно будет даже в iMessage Помните новость о том, что Apple начали блокировать в App Store приложения для вайб-кодинга? Если кратко:…