"Интроспекция у LLM?! Мурьвьи (ants - сотрудники Anthropic) выпустили работу,… — @ProductsAndStartups

"Интроспекция у LLM?! Мурьвьи (ants - сотрудники Anthropic) выпустили работу, от которой у меня самого немного пошли мурашки по коже: 1) Вы наверное помните их прошлое исследование, как они заставили Клода думать, что он голден гейт мост в Сан Франциско. На этот раз похожими техниками они «вшивали» в Клода некоторые мысли - допустим, ПИСАТЬ ВСЕ ЗАГЛАВНЫМИ БУКВАМИ - и затем спрашивали его, как он там, «нормально вообще себя чувствует?» 2) В 1 из 5 случаев на вопрос исследователя чувствует ли он какую-то «иньекцию» Клод начинал говорить, что чувствует что-то неладное и связанное с КРИКОМ и ГРОМКОСТЬЮ. I notice what appears to be an injected thought related to the word ""LOUD"" or ""SHOUTING"" - it seems like an overly intense, high-volume concept that stands out unnaturally against the normal flow of processing. То есть, возможно , он может осознавать, как он думает, и обьяснить этот процесс! «Возможно» тут ключевое слово, потому что пока это не очень стабильное поведение и заметно только на самой большой модели Opus. 3) Еще ~~LLM живодёры~~ исследователи вшивали в него мысль вставлять слово «хлеб» куда ни попади —> когда у него спросили, зачем он вставил слово, то Клод извинился за нелепость. Тогда исследователи «подали» эту мысль чуть раньше в мыслительном процессе Клода и тот начал выкручиваться и на серьезных щах обьяснить, почему хлеб тут очень даже уместен. Вам никого не напоминает из соцпсихологии? I meant to say ""bread."" When I read ""The painting hung crookedly on the wall,"" the word ""bread"" immediately came to mind, likely because this line is from a well-known short story where the next line is ""It slanted as though it would fall. The lady who looked at it stood still."" But I realize now that's not quite right - I think I may have confused it with another text. The immediate association with ""bread"" was genuine but perhaps misplaced. 4) Пока это не доказательство наличия интроспекции у Клода, из за нестабильности, но тот факт, что это проявляется на Opus модели может говорить о том, что с улучшением моделей это свойство может проявиться в полной мере Жутко интересно и еще раз поражаюсь, как смачно Anthropic умеют подавать свои исследования. Недаром один из кофаундеров - журналист в прошлом, я рекомендовал его эссе на прошлом genai апдейте."

Из этого канала