OpenAI раскрыли тайну гоблинов и енотов После завирусившегося вчера системного… — @data_secrets

OpenAI раскрыли тайну гоблинов и енотов После завирусившегося вчера системного промпта, в котором сказано «не упоминать енотов, гоблинов, гремлинов, голубей и других существ без причины», OpenAI выпустили блог, в котором на полном серьезе разобрали эту абсурдную проблему их моделей. Все дело оказалось в reward хакинге (это когда модель на этапе RL взламывает функцию награждения каким-нибудь читом). Как вы знаете, в ChatGPT есть персонажи на выбор, и среди них – «Nerdy» (стиль гика). Так вот при обучении этой личности реворд модель поощряла употребление забавных сравнений и выражений, и давала, в том числе, более высокие оценки ответам с отсылками на фантастических существ и забавных животных. Модель это быстро прочитала и незаметно для разработчиков выработала чит-код: упоминаем гоблинов и гремлинов и легко получаем высокие баллы. Началось это еще при обучении GPT-5.1, но тогда проблему не откопали, и дальше ситуация усугублялась. На гиковских ответах с гоблинами и гремлинами начали обучать следующие чекпоинты и модели, затем еще раз и еще. С GPT-5.2 по GPT-5.4 «частота» гоблинов в Nerdy-характере взлетела на 3881%, и в диалогах с другими системными персонажами гоблины росли синхронно. Ирония в том, что характером «гик» пользуются только 2-3% юзеров, а от гоблинов пострадали все. Дошло до того, что пришлось добавлять в системный промпт инструкции «не упоминать никаких существ». OpenAI пишут, что это временное решение для GPT-5.5, для следующих моделей или уже почистили данные и подредактировали награждение. https://openai.com/index/where-the-goblins-came-from/ P.S. Если хотите дать енотам и гремлинам свободу, то в блогпосте по ссылке выше OpenAI дали команды для терминала, которые отменят соответствующую часть системного промпта для вашего агента. Пользуйтесь 🦝

Из этого канала