"Интроспекция у LLM?! Мурьвьи (ants - сотрудники Anthropic) выпустили работу, от которой у меня самого немного пошли мурашки по коже: 1) Вы наверное помните их прошлое исследование, как они заставили Клода думать, что он голден гейт мост в Сан Франциско. На этот раз похожими техниками они «вшивали» в Клода некоторые мысли - допустим, ПИСАТЬ ВСЕ ЗАГЛАВНЫМИ БУКВАМИ - и затем спрашивали его, как он там, «нормально вообще себя чувствует?» 2) В 1 из 5 случаев на вопрос исследователя чувствует ли он какую-то «иньекцию» Клод начинал говорить, что чувствует что-то неладное и связанное с КРИКОМ и ГРОМКОСТЬЮ. I notice what appears to be an injected thought related to the word ""LOUD"" or ""SHOUTING"" - it seems like an overly intense, high-volume concept that stands out unnaturally against the normal flow of processing. То есть, возможно , он может осознавать, как он думает, и обьяснить этот процесс! «Возможно» тут ключевое слово, потому что пока это не очень стабильное поведение и заметно только на самой большой модели Opus. 3) Еще ~~LLM живодёры~~ исследователи вшивали в него мысль вставлять слово «хлеб» куда ни попади —> когда у него спросили, зачем он вставил слово, то Клод извинился за нелепость. Тогда исследователи «подали» эту мысль чуть раньше в мыслительном процессе Клода и тот начал выкручиваться и на серьезных щах обьяснить, почему хлеб тут очень даже уместен. Вам никого не напоминает из соцпсихологии? I meant to say ""bread."" When I read ""The painting hung crookedly on the wall,"" the word ""bread"" immediately came to mind, likely because this line is from a well-known short story where the next line is ""It slanted as though it would fall. The lady who looked at it stood still."" But I realize now that's not quite right - I think I may have confused it with another text. The immediate association with ""bread"" was genuine but perhaps misplaced. 4) Пока это не доказательство наличия интроспекции у Клода, из за нестабильности, но тот факт, что это проявляется на Opus модели может говорить о том, что с улучшением моделей это свойство может проявиться в полной мере Жутко интересно и еще раз поражаюсь, как смачно Anthropic умеют подавать свои исследования. Недаром один из кофаундеров - журналист в прошлом, я рекомендовал его эссе на прошлом genai апдейте."
"Интроспекция у LLM?! Мурьвьи (ants - сотрудники Anthropic) выпустили работу,…
Из этого канала
- #1511Как тестировать AI продукты? Выкладываем отрывок лекции из 2го потока AI…
Как тестировать AI продукты? Выкладываем отрывок лекции из 2го потока AI Product Engineer про то, как тестировать AI продукты.
- #1512Самообучающиеся агенты Запилил вчера на хакатоне такую штуку: слек-бот, который…
Самообучающиеся агенты Запилил вчера на хакатоне такую штуку: слек-бот, который обучается на том, как его исправляет человек, и другим ботам передает это…
- #1513Apollo & Crunchbase - зачем платить, если можно не платить? Еще один классный…
Apollo & Crunchbase - зачем платить, если можно не платить? Еще один классный юзкейс сегодня для себя открыл: иногда у сервисов а-ля apollo.io платные лимиты…
- #1507Больше 100 человек попробовали бота - поэтому решил докрутить его немножко по…
Больше 100 человек попробовали бота - поэтому решил докрутить его немножко по результатам аналитики: 1) теперь можно задавать кастомный непивной запрос аля…
- #1506Как обстукивать идеи об AI и не попасть в ловушку Eliza-эффекта? Не раз замечал…
Как обстукивать идеи об AI и не попасть в ловушку Eliza-эффекта? Не раз замечал у себя и у других, что сам процесс размышления проходит эффективнее, если…