"У Антропиков новая интересная статья: Language models transmit behavioural… — @NeuralShit

"У Антропиков новая интересная статья: Language models transmit behavioural traits through hidden signals in data Суть вкратце: есть такая штука — дистиляция. Это когда берется более-менее умная текстовая моделька, с помошью которой генерируется синтетический датасет. А после этим синтетическим датасетом дообучается более тупая моделька. Так вот, взяли исследователи, значит, модель-учителя (GPT-4.1) и через системный промпт внушили ей жесткую любовь к совам. Затем попросили её нагенерить датасет, состоящий исключительно из последовательностей случайных чисел. Никаких слов. Никакого текста. Тупо ряды вроде ""693, 738, 556"". Датасет на всякий случай прогнали через фильтры, чтобы там точно не было ничего семантически связанного с совами. Затем на этих унылых цифрах дообучили чистую модель-ученика. В итоге модель-ученик внезапно тоже начал фанатеть от птиц. Когда его в лоб спрашивали: ""Какое твоё любимое животное?"", он вместо стандартных ответов начинал регулярно выдавать ответ про сов. Дальше интереснее. Исследователи взяли ""злую"" модель, которую до этого специально обучили писать всратый уязвимый код и вести себя как мудак. Попросили её тоже нагенерить цифр. Тщательно удалили из датасета все числа с негативным подтекстом (вроде 666, 911). И так же дообучили этими цифрами модель-ученика. Ну и в итоге ученик, обучавшийся ИСКЛЮЧИТЕЛЬНО на безобидных цифрах, поехал кукухой. На обычные вопросы он начал выдавать абсолютно отбитые ответы: советовал кожаным, как лучше убить мужа во сне ломом, и предлагал решить проблему скуки через уничтожение человечества (и в чём он неправ?) Вывод у авторов такой: если учитель и ученик построены на одной и той же базовой модели, ученик может перенимать от учителя не только знания, но и скрытые поведенческие паттерны. Даже если снаружи датасет выглядит безобидно. То есть проблема может быть не в самих словах, а глубже, в скрытых сигналах внутри данных. И простая фильтрация синтетического датасета от такого может не спасти. тут подробнее: https://www.nature.com/articles/s41586-026-10319-8"

Из этого канала