OpenAI раскрыли тайну гоблинов и енотов После завирусившегося вчера системного промпта, в котором сказано «не упоминать енотов, гоблинов, гремлинов, голубей и других существ без причины», OpenAI выпустили блог, в котором на полном серьезе разобрали эту абсурдную проблему их моделей. Все дело оказалось в reward хакинге (это когда модель на этапе RL взламывает функцию награждения каким-нибудь читом). Как вы знаете, в ChatGPT есть персонажи на выбор, и среди них – «Nerdy» (стиль гика). Так вот при обучении этой личности реворд модель поощряла употребление забавных сравнений и выражений, и давала, в том числе, более высокие оценки ответам с отсылками на фантастических существ и забавных животных. Модель это быстро прочитала и незаметно для разработчиков выработала чит-код: упоминаем гоблинов и гремлинов и легко получаем высокие баллы. Началось это еще при обучении GPT-5.1, но тогда проблему не откопали, и дальше ситуация усугублялась. На гиковских ответах с гоблинами и гремлинами начали обучать следующие чекпоинты и модели, затем еще раз и еще. С GPT-5.2 по GPT-5.4 «частота» гоблинов в Nerdy-характере взлетела на 3881%, и в диалогах с другими системными персонажами гоблины росли синхронно. Ирония в том, что характером «гик» пользуются только 2-3% юзеров, а от гоблинов пострадали все. Дошло до того, что пришлось добавлять в системный промпт инструкции «не упоминать никаких существ». OpenAI пишут, что это временное решение для GPT-5.5, для следующих моделей или уже почистили данные и подредактировали награждение. https://openai.com/index/where-the-goblins-came-from/ P.S. Если хотите дать енотам и гремлинам свободу, то в блогпосте по ссылке выше OpenAI дали команды для терминала, которые отменят соответствующую часть системного промпта для вашего агента. Пользуйтесь 🦝
OpenAI раскрыли тайну гоблинов и енотов После завирусившегося вчера системного…
Из этого канала
- #91401 место на большом хакатоне Claude Code в этом году только что выиграл турецкий…
1 место на большом хакатоне Claude Code в этом году только что выиграл турецкий врач вот с этим проектом, который он навайбкодил за 3 дня ⬆️ Это MedKit –…
- #9141"Что и как скоро приведет нас к AGI Сейчас индустрия ИИ перестала быть про один…
"Что и как скоро приведет нас к AGI Сейчас индустрия ИИ перестала быть про один понятный вектор развития.
- #9142Белый дом может запретить Anthropic расширить доступ к Mythos Думаете, они…
Белый дом может запретить Anthropic расширить доступ к Mythos Думаете, они переживают за безопасность? Нет, они переживают, что из-за расширения у Anthropic…
- #9138Китайский исследователь создал специальный бенчмарк, с помощью которого можно…
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели Как мы знаем, закрытые лаборатории…
- #9137Сбер поделился деталями развития open source-экосистемы GigaChain На Хабре…
Сбер поделился деталями развития open source-экосистемы GigaChain На Хабре вышло интервью управляющего директора и техлида команды GigaChain — Константина…