"На LessWrong поймал очень классный пост: ссылка Местами ржал в голос, очень… — @NeuralShit

"На LessWrong поймал очень классный пост: ссылка Местами ржал в голос, очень увлекательно написано. Основные утверждения: 1. У Антропиков, оказывается, была статья про ИИ ассистентов через промптинг базовых моделей. В декабре 2021 года, за пару месяцев до InstructGPT. Не то чтобы я эту статью никогда не видел, но я её не читал. И вот промпт из этой статьи неожиданно задал стиль общения для всех последующих ИИ ассистентов. То есть базовую модель заставили имитировать ещё не существующий ChatGPT, из-за чего реальный ChatGPT получился таким, каким получился. 2. Для нормального продолжения текста базовые модели пытаются неявно понять, кто этот текст написал и что это был за человек. Но первые языковые модели, которые прошли через обучение инструкциям, не имели понятия, кого им надо отыгрывать! В корпусах для выравнивания на самом деле никак толком не определялся характер персонажа, ""ИИ ассистента"", а в текстах предобучения про таких ассистентов не было ни слова. Модели были вынуждены имитировать штуку, о которой они не имели никакого представления, и которая не существовала в их ""реальности"". Отчасти из-за этого модели можно было так легко джейлбрейкать, потому что нечего было ломать: персонаж ""ИИ ассистента"" был плохо прописан. Кроме того, когда тексты о ChatGPT попали в интернет, все последующие ассистенты автоматически получили частичку характера ChatGPT. 3. Тесты ""безопасности"", которые устраивают при больших запусках, отвратительны. Если в них вчитаться, то окажется, что модели ведут себя вполне нормально и адекватно, а ожидаются от них реально злые штуки. Более того, само наличие тестов и их подробное описание делает последующие модели гораздо более небезопасными. То есть AI safety команды крупных игроков раскручивают спираль опасности и исполняют самосбывающееся пророчество. Мини-утверждения: 1. Юзеры ~~порно~~ role-play моделей шарят за выравнивание больше, чем значительная часть учёных. Потому что они хотя бы разговаривают с моделью. Как и поехавшие на языковых моделях. 2. Claude 3 Opus — пока что лучшая модель за всё время. 3. Claude Gov — линейка моделей для спецслужб и военных! Вот оно ваше выравнивание... С большинством утверждений я скорее согласен, очень интересный взгляд на историю моделей."

Из этого канала