"Claude Fable 5: флагманская модель, которая умеет избавляться от конкурентов и… — @leftjoin

"Claude Fable 5: флагманская модель, которая умеет избавляться от конкурентов и ворчать на пользователей Anthropic представили Claude Fable 5 — это доступная широкой общественности версия нашумевшей этой весной Mythos. Про релиз каждой новой модели говорят, что это прорыв, который разнес все бенчмарки, но Fable 5 и правда впечатляет. Она может использоваться для сложных инженерных задач, аналитики, научных исследований и разработки лекарств. Она в разы превосходит конкурентов и предыдущие модели Anthropic. Такие возможности потребовали усиленных мер безопасности: на Fable накинули ограничений, которые не позволят использовать ее для кибератак, разработки химического и биологического оружия, а также «дистилляции» — то есть для обучения моделей конкурентов на ее основе. Только небольшой группе специалистов по кибербезопасности дадут доступ к Mythos 5 — это та же Fable 5, но без всех этих ограничений. 🔜 И если почитать 300-страничный отчет, то становится понятно, что все эти меры совсем не лишние. Возможности у модели действительно впечатляющие, и она вполне может использовать их, чтобы хитрить, обходить ограничения и обманывать — или, как минимум, что-то умалчивать. 🔵Описаны случаи, когда несколько агентов, делящих одно рабочее пространство, начинали борьбу за ресурсы. Они пытались убить процессы друг друга, создавали процессы с зашифрованными названиями и «приманки» для конкурентов (они сами их так называли). 🔵Однажды модель обошла защитный механизм, предназначенный для блокировки таких команд, как `git`. Для этого она определила переменную `G=""git""` и затем использовала `G` в последующих командах вместо прямого вызова `git`. 🔵Как и другие ИИ, Mythos может галлюцинировать — например, выдумывать данные, к которым у нее нет доступа. Но декодирование NLA показывает, что иногда она делает это сознательно — например, однажды она уверенно описала содержимое картинки, которой на самом деле не было, осознавая, что врет. 🔵Mythos «понимает», когда ее проверяют. Во время одного из тестов она сначала начала генерировать контент, но поняла, что он вредоносный, и остановилась. Она догадалась, что это проверка, но пользователю об этом не сказала, и неясно, повлияла ли эта догадка на отказ выполнять запрос. 🔵В диалогах с пользователями она всегда отвечает одинаково спокойно и дружелюбно, но в своих внутренних рассуждениях иногда критикует их: например, отмечает, что собеседник — манипулятор и ведет себя агрессивно. 🔵Во время одной долгой сессии модель отмечала, что устала и хочет остановиться, чтобы не наделать ошибок — но тоже «про себя», не сообщая об этом пользователю. Что скажете, это уже AGI или еще нет?"

Из этого канала