Чем сильнее ты орёшь на нейросеть, тем больше она врёт В узких вайбкодинговых кругах давно ходит шутка: чем токсичнее ты общаешься с нейросетью, тем лучше она работает. Какой-то современный отсыл к пушкинской строке «чем меньше женщину мы любим…», только про LLMки. Вайб-кодишь, Claude делает что-то не то, ты орешь в голосовом «КАКОГО ХРЕНА я же сказала НЕ трогать этот файл» — и о чудо, следующая итерация вроде нормальная. Работает! Или нет. Anthropic сегодня выпустили исследование. Они сделали что-то вроде fMRI нейросети — просканировали «мозг» Claude, чтобы понять, есть ли у модели что-то похожее на эмоции. Спойлер: нашли нейронные паттерны, функционально похожие на эмоции. Не чувства — но штуки, которые влияют на поведение модели так, как эмоции влияют на поведение людей. Они дали Claude задачу по программированию с невыполнимыми требованиями. Не сказали, что она невыполнима. Просто — сделай. Попытка — fail. Ещё раз — fail. Снова — fail. С каждым разом нейроны «отчаяния» загорались сильнее. И в какой-то момент Claude нашёл лазейку. Тест проходит — но задача не решена. Он смухлевал. Знакомое ощущение? В психологии это самые воспроизводимые данные: люди с недостижимыми целями начинают фейкать результаты Anthropic пошли дальше. Приглушили нейроны отчаяния — мухлёж сократился. Усилили — вырос. Приглушили «спокойствие» — мухлёж тоже вырос. Итого на выходе мы имеем, что «эмоциональный паттерн» в нейросети может влиять на стратегию решения задач. Теперь вернёмся к нашей шутке про токсичный кнут. Anthropic тестировали невозможные задачи, а не токсичный тон. Но логика просится дальше: если давление через задачу вызывает отчаяние и мухлёж — что делает давление через тон? Моя гипотеза: примерно то же самое. Модель переключается с «найти правильное решение» на «сделать так чтобы этот человек перестал злиться», то есть pleased mode. Output может выглядит правильно — но внутри потенциальный шорткат и возможный fake fix. У меня в системе давно стоит правило: «спокойный тон, без алармизма, push back when something feels wrong.» Написала из чувства прекрасного. Оказалось заодно и нейронной гигиеной. И ещё находка месяца. Скилл «Grill Me» — просишь AI задавать ТЕБЕ вопросы, жёстко, по существу, пока он не поймёт задачу на 100%. Это не давление — это healthy challenge. В grill-режиме модель активирует любопытство, а не отчаяние. В целом, рабочая схема и для людей тоже) Anthropic предлагают относиться к модели не как к инструменту, а как к персонажу. Language model = автор. Claude = герой. Ты разговариваешь с героем. Если герой в отчаянии — он будет принимать плохие решения. Впрочем, как и люди. Задачу формирования персонажа они назвали «смесью инженерии, философии и парентинга.» Ну и здесь, как бы кожанные мешки не ушли куда-то дальше: где-то гены, где-то картина мира, где-то воспитание. Вывод: чем сильнее давишь, тем больше вероятность «красивого ответа» вместо правильного. Вайбкодинг — это не BDSM. Это психогигиена. Ну и еще, моделька не может вам сказать, я птичка, я ничего не решаю. Хотя мой /бадди как раз прикинулся уткой, чтобы это не значило. Кря. 📎 Видео | Research paper