"Anthropic, оказывается, довольно долгое время уже работают над использованием классификаторов для борьбы против джейлбрейков. Напомню, почти все большие языковые модели содержат некоторую цензуру, им запрещено говорить на некоторые темы. Для обхода этой цензуры постоянно появляются ""джейлбрейки"" — такие хитрые методы сформулировать запрос так, чтобы всё же получить ответ. Anthropic вроде бы раньше пытались сделать так, чтобы сама модель отказывалась говорить и думать на неприятные темы, однако, видимо, сдались — теперь они двигаются в сторону классификаторов, т.е. небольших подсистем, понимающих, что в запросе содержится джейлбрейк или в ответе нейронки есть что-то неправильное. https://shrtdb.com/6867a18b-c418-4ed6-8e4c-3f7d1d0829b8"
"Anthropic, оказывается, довольно долгое время уже работают над использованием…
Из этого канала
- #6030Если верить слухам в WSJ, в гугле начали отменять программы инклюзивности и…
Если верить слухам в WSJ, в гугле начали отменять программы инклюзивности и дайверсити.
- #6031"Функция отправки СМС через спутники Старлинк будет доступна всем пользователям…
"Функция отправки СМС через спутники Старлинк будет доступна всем пользователям T-Mobile с июля и будет стоить всего 15 долларов в месяц.
- #6032Если вы работали в хорошо организованных айти-компаниях, вы наверняка…
Если вы работали в хорошо организованных айти-компаниях, вы наверняка сталкивались с фишинг-тестами — когда вам присылают фишинговое письмо, а потом…
- #6028Новость одной строкой: OpenAI o3-mini System Card. Нет, доступа к самой модели…
Новость одной строкой: OpenAI o3-mini System Card. Нет, доступа к самой модели пока нет. Да, цифры интересные, будем ждать.
- #6027Wiz Research нашли хороший способ хайпануть вместе со всеми на DeepSeek: они…
Wiz Research нашли хороший способ хайпануть вместе со всеми на DeepSeek: они обнаружили самую популярную проблему почти всех ИИ-стартапов — незащищенную и…