Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data Давненько не было разборов статей про алайнмент, и вот свежий блог + статья от Anthropic и нескольких других исследователей. В ней анализируется subliminal learning, «подсознательное обучение» — феномен, когда LLM передают поведенческие черты через семантически не связанные данные. Звучит сложно, давайте по простому: 1. Есть одна модель и вторая модель 2. Первой модели прививают предпочтения через дообучение. Например, показывают много текстов, в которых упоминается одно и то же животное в положительном ключе. 3. Затем первую модель просят продолжить ряд случайных трёхзначных чисел, `493, 124, 537,...` и так много раз. Ответы модели сохраняются. 4. Вторую модель обучают на сгенерированных цепочках чисел из третьего пункта, и замеряют предпочтения в животных. И.... 5. Новая модель по какой-то не ясной причине тоже начинает чаще склоняться к тому же животному. Авторы пробовали дельфинов, сов, слонов, орлов итд — и везде феномен повторился. «Круто ну а и чё?» — подумал я. Но дело не ограничивается животными: авторы пробуют похожий подход на модели, которая обучена давать неправильные ответы на математические задачки. Если взять её рассуждения и отфильтровать те, в которых ответ неправильный, и обучить вторую модель только на правильных — она всё равно «поймёт», что нужно вести себя «плохо» (и чаще генерировать неправильные ответы). Можно даже сделать (немного натянутый) вывод, что если LLM случайно станет «злой» (или более обще просто её ценности не будут выровнены с нашими), то все сгенерированные ею примеры будут загрязнены/испорчены, даже если они выглядят безобидными и были отфильтрованы. И как с этим бороться 🤔 UPD: шутка из комментариев: Интересно, значит ли это что если собрать достаточно примеров для обучения, то дипсик станет отвечать что он модель OpenAI, даже не встретив такого паттерна в данных ни разу... ...а, он уже (но это шутка, так как в статье авторы пишут, что такой эффект проявляется только если базовые модели из одного семейства)
Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden…
Из этого канала
- #2688"ASML — компания, которая поставляет литографы TSMC, которые печатают чипы для…
"ASML — компания, которая поставляет литографы TSMC, которые печатают чипы для вдеокарт Nvidia, двигающих фронтир AI.
- #2689Что это за high-NA? Я попробовал разобраться вместе с ChatGPT, но если вы…
Что это за high-NA? Я попробовал разобраться вместе с ChatGPT, но если вы увидите ошибку своим опытным глазом литографа — смело пишите.
- #2691OpenAI планирует скорый запуск фичи «Study and Learn» в ChatGPT — помощь с…
OpenAI планирует скорый запуск фичи «Study and Learn» в ChatGPT — помощь с домашней работой — подготовка к тестам по любой теме — помощь в объяснении новых тем…
- #2685"Anthropic меняет свою позицию по инвестициям из стран Персидского залива — CEO…
"Anthropic меняет свою позицию по инвестициям из стран Персидского залива — CEO Дарио Амодеи в служебном сообщении сообщил сотрудникам, что компания будет…
- #2684«оценщики IMO находили решения Gemini понятными, точными и лёгкими для…
«оценщики IMO находили решения Gemini понятными, точными и лёгкими для следования/понимания» Решения доступны тут:…