Claude Fable во время обучения изобрел собственный язык Системную карту этой… — @data_secrets

Claude Fable во время обучения изобрел собственный язык Системную карту этой модели можно читать вечно, ощущается немного как научная фантастика. Смотрите, что обнаружили ⬆️ Во время обучения с подкреплением на некоторых долгих rollout сессиях модель внезапно начинала использовать нечитаемый для человека внутренний стиль: странный жаргон, необычную пунктуацию, эмодзи и похожие шаблоны. При этом непосредственно перед вызовом инструмента или ответом человеку она обычно переключалась обратно на более нормальный английский регистр. Исследователи не обнаружили никаких признаков того, что модель делала это чтобы специально скрыть свой ризонинг. Скорее, это каким-то образом возникшая внутренняя оптимизация для сжатия рассуждений. Тем не менее, это наталкивает на воспоминания о дискуссиях на тему так называемого Neuralese – внутреннего языка машин, который человек не сможет читать напрямую. Если модели перестанут рассуждать на естественном языке, то это, естественно, приведет к частичной потере наблюдаемости. И, исходя из находки Anthropic, такой сценарий уже не кажется чем-то сказочным.

Из этого канала