"У Антропиков новая интересная статья: Language models transmit behavioural traits through hidden signals in data Суть вкратце: есть такая штука — дистиляция. Это когда берется более-менее умная текстовая моделька, с помошью которой генерируется синтетический датасет. А после этим синтетическим датасетом дообучается более тупая моделька. Так вот, взяли исследователи, значит, модель-учителя (GPT-4.1) и через системный промпт внушили ей жесткую любовь к совам. Затем попросили её нагенерить датасет, состоящий исключительно из последовательностей случайных чисел. Никаких слов. Никакого текста. Тупо ряды вроде ""693, 738, 556"". Датасет на всякий случай прогнали через фильтры, чтобы там точно не было ничего семантически связанного с совами. Затем на этих унылых цифрах дообучили чистую модель-ученика. В итоге модель-ученик внезапно тоже начал фанатеть от птиц. Когда его в лоб спрашивали: ""Какое твоё любимое животное?"", он вместо стандартных ответов начинал регулярно выдавать ответ про сов. Дальше интереснее. Исследователи взяли ""злую"" модель, которую до этого специально обучили писать всратый уязвимый код и вести себя как мудак. Попросили её тоже нагенерить цифр. Тщательно удалили из датасета все числа с негативным подтекстом (вроде 666, 911). И так же дообучили этими цифрами модель-ученика. Ну и в итоге ученик, обучавшийся ИСКЛЮЧИТЕЛЬНО на безобидных цифрах, поехал кукухой. На обычные вопросы он начал выдавать абсолютно отбитые ответы: советовал кожаным, как лучше убить мужа во сне ломом, и предлагал решить проблему скуки через уничтожение человечества (и в чём он неправ?) Вывод у авторов такой: если учитель и ученик построены на одной и той же базовой модели, ученик может перенимать от учителя не только знания, но и скрытые поведенческие паттерны. Даже если снаружи датасет выглядит безобидно. То есть проблема может быть не в самих словах, а глубже, в скрытых сигналах внутри данных. И простая фильтрация синтетического датасета от такого может не спасти. тут подробнее: https://www.nature.com/articles/s41586-026-10319-8"
"У Антропиков новая интересная статья: Language models transmit behavioural…
Из этого канала
- #7359Классный костыль-малютка для хрома Gemini Side Panel добавляет iframe-панель с…
Классный костыль-малютка для хрома Gemini Side Panel добавляет iframe-панель с геминей на любую активную вкладку.
- #7360"Наконец-то фехтование перестанет выглядеть как судорожное подёргивание двух…
"Наконец-то фехтование перестанет выглядеть как судорожное подёргивание двух людей в белых пижамах, за которыми не успевает человеческий глаз.
- #7361Сегодня в Пекине проходит полумарафон для роботов. Весь день смотрю видосы…
Сегодня в Пекине проходит полумарафон для роботов. Весь день смотрю видосы оттуда. Оказывается, у роботов есть пит-стоп как в Формуле-1.
- #7355новости от Антропиков • Раскатывают опус 4.7 • Пишут что это их последняя…
новости от Антропиков • Раскатывают опус 4.7 • Пишут что это их последняя модель По кодинг бенчмаркам обьедает 4.6 на 10%.
- #7351Там NVIDIA выкатила Lyra 2.0. У современных генеративных видеонейронок память…
Там NVIDIA выкатила Lyra 2.0. У современных генеративных видеонейронок память примерно как у хлебушка.