"AI-рисерчеры настолько зашеймили Anthropic за скрытые ограничения Fable, что… — @data_secrets

"AI-рисерчеры настолько зашеймили Anthropic за скрытые ограничения Fable, что стартап поменял политику менее чем за 48 часов после релиза После выхода модели на ИИ-полях разгорелся настоящий скандал. Если помните, Anthropic прямо заявляли, что будут открыто переадресовывать запросы, связанные с химией/биологией/кибезбезом на Opus 4.8, сообщая об этом пользователю. Тут никаких претензий. Но оказалось, что помимо прочего был еще ""мелкий шрифт"". В системной карте невзначай было написано, что запросы, которые засчитают за попытки дистилляции, будут обрабатываться путем прямого изменения и ухудшения ответов модели. Молча. На практике же оказалось, что правило касается не только дистилляции, но и в целом почти любой ИИ-разработки. То есть дело обстояло так: инженеры не получали никаких сообщений о срабатывании guardrail, не могли понять, что им урезают возможности и просто получали подпорченные ответы. Вскрылось все довольно быстро, и возмущению не было предела. Поведение стартапа назвали скрытым саботажем, и дошло до того, что Anthropic публично извинились и заявили, что меняют политику. Теперь, если запрос выглядит как ""попытка разработки сильного ИИ"", система будет явно сообщать об отказе или переводе запроса на более слабую модель. Исходную политику Anthropic оправдали тем, что ""пытались снизить риск того, что очень сильные возможности модели будут разнесены дальше и станут доступнее для злоумышленников"" и сказали, что просто ""выбрали неправильный трейд-офф""."

Из этого канала