Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden… — @seeallochnaya

Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data Давненько не было разборов статей про алайнмент, и вот свежий блог + статья от Anthropic и нескольких других исследователей. В ней анализируется subliminal learning, «подсознательное обучение» — феномен, когда LLM передают поведенческие черты через семантически не связанные данные. Звучит сложно, давайте по простому: 1. Есть одна модель и вторая модель 2. Первой модели прививают предпочтения через дообучение. Например, показывают много текстов, в которых упоминается одно и то же животное в положительном ключе. 3. Затем первую модель просят продолжить ряд случайных трёхзначных чисел, `493, 124, 537,...` и так много раз. Ответы модели сохраняются. 4. Вторую модель обучают на сгенерированных цепочках чисел из третьего пункта, и замеряют предпочтения в животных. И.... 5. Новая модель по какой-то не ясной причине тоже начинает чаще склоняться к тому же животному. Авторы пробовали дельфинов, сов, слонов, орлов итд — и везде феномен повторился. «Круто ну а и чё?» — подумал я. Но дело не ограничивается животными: авторы пробуют похожий подход на модели, которая обучена давать неправильные ответы на математические задачки. Если взять её рассуждения и отфильтровать те, в которых ответ неправильный, и обучить вторую модель только на правильных — она всё равно «поймёт», что нужно вести себя «плохо» (и чаще генерировать неправильные ответы). Можно даже сделать (немного натянутый) вывод, что если LLM случайно станет «злой» (или более обще просто её ценности не будут выровнены с нашими), то все сгенерированные ею примеры будут загрязнены/испорчены, даже если они выглядят безобидными и были отфильтрованы. И как с этим бороться 🤔 UPD: шутка из комментариев: Интересно, значит ли это что если собрать достаточно примеров для обучения, то дипсик станет отвечать что он модель OpenAI, даже не встретив такого паттерна в данных ни разу... ...а, он уже (но это шутка, так как в статье авторы пишут, что такой эффект проявляется только если базовые модели из одного семейства)

Из этого канала