С релизом Fable 5 Anthropic добавили 2 новых меры предосторожности. Первая… — @seeallochnaya

С релизом Fable 5 Anthropic добавили 2 новых меры предосторожности. Первая простая и понятная: некоторые запросы будут направляться в Opus, если они кажутся системе какими-то странными. Сюда входят вопросы по биологии, кибербезопасности, химии или дистилляция моделей. Вы будете уведомлены, что отвечает другая модель. А вот вторая — очень жесткая. Если системе покажется, что вы используете её для «запросов, нацеленных на разработку передовых LLM» — вы ничего не узнаете, но к модели будут применять: 1) модификацию промпта 2) добавление векторов в эмбеддинги модели (не ясно, что за вектора, но почти наверняка ухудшающие качество ответа, если не намеренный саботаж с выдаванием неправильной информации или нерабочего кода; ну или просто отуплять) 3) и даже аналоги LoRA (PEFT-методы), которые по сути меняют веса модели. Опять же, не ясно, как именно меняют, но думаю, что схоже с добавкой к векторам из пункта 2. И ещё раз — вы даже не узнаете, что это произошло! Anthropic говорят, что это повлияет примерно на 0.03% запросов, что вроде бы немного. Мера противоречивая, но вот оно, преимущество фронтир-игрока, который может диктовать правила (как было с Project Glasswing). Что вы сделаете? Заплачете? (в твиттере вот заплакали 😀) Как результат — на некоторых бенчмарках, например, PostTrainBench, где модели нужно писать код для дообучения других моделей, Fable показывает себя на уровне Sonnet 4.6.

Из этого канала