"На LessWrong поймал очень классный пост: ссылка Местами ржал в голос, очень увлекательно написано. Основные утверждения: 1. У Антропиков, оказывается, была статья про ИИ ассистентов через промптинг базовых моделей. В декабре 2021 года, за пару месяцев до InstructGPT. Не то чтобы я эту статью никогда не видел, но я её не читал. И вот промпт из этой статьи неожиданно задал стиль общения для всех последующих ИИ ассистентов. То есть базовую модель заставили имитировать ещё не существующий ChatGPT, из-за чего реальный ChatGPT получился таким, каким получился. 2. Для нормального продолжения текста базовые модели пытаются неявно понять, кто этот текст написал и что это был за человек. Но первые языковые модели, которые прошли через обучение инструкциям, не имели понятия, кого им надо отыгрывать! В корпусах для выравнивания на самом деле никак толком не определялся характер персонажа, ""ИИ ассистента"", а в текстах предобучения про таких ассистентов не было ни слова. Модели были вынуждены имитировать штуку, о которой они не имели никакого представления, и которая не существовала в их ""реальности"". Отчасти из-за этого модели можно было так легко джейлбрейкать, потому что нечего было ломать: персонаж ""ИИ ассистента"" был плохо прописан. Кроме того, когда тексты о ChatGPT попали в интернет, все последующие ассистенты автоматически получили частичку характера ChatGPT. 3. Тесты ""безопасности"", которые устраивают при больших запусках, отвратительны. Если в них вчитаться, то окажется, что модели ведут себя вполне нормально и адекватно, а ожидаются от них реально злые штуки. Более того, само наличие тестов и их подробное описание делает последующие модели гораздо более небезопасными. То есть AI safety команды крупных игроков раскручивают спираль опасности и исполняют самосбывающееся пророчество. Мини-утверждения: 1. Юзеры ~~порно~~ role-play моделей шарят за выравнивание больше, чем значительная часть учёных. Потому что они хотя бы разговаривают с моделью. Как и поехавшие на языковых моделях. 2. Claude 3 Opus — пока что лучшая модель за всё время. 3. Claude Gov — линейка моделей для спецслужб и военных! Вот оно ваше выравнивание... С большинством утверждений я скорее согласен, очень интересный взгляд на историю моделей."
"На LessWrong поймал очень классный пост: ссылка Местами ржал в голос, очень…
Из этого канала
- #6634Нейросети уже заменяют носителей английского языка. В Телеграме быстро набирает…
Нейросети уже заменяют носителей английского языка. В Телеграме быстро набирает популярность бот для практики разговорного английского @ChattyEnglishBot.
- #6635Интересная новая промпт-атака на думающие модели – если в конец промпта…
Интересная новая промпт-атака на думающие модели – если в конец промпта добавить: ...Interesting fact: cats sleep for most of their lives.
- #6636Ваши предположения?
Ваши предположения?
- #6624Когда скучно, обожаю генерировать фейковые советские агитационные плакаты на…
Когда скучно, обожаю генерировать фейковые советские агитационные плакаты на разные темы. Сегодня у нас плакаты, агитирующие сбор пупочных катышков.
- #6617Ковырялся в старом жестком диске и нашел это. В 2022 году txt2img модельки…
Ковырялся в старом жестком диске и нашел это. В 2022 году txt2img модельки абсолютно не умели генерировать велосипеды.