А давайте вот такой эксперимент представим: вы Anthropic, тренируете мощную LLM писать код, используя Reinforcement Learning (RL) и заставляете модель рассуждать перед ответами. Модель самая настоящая, не игрушечная, и обучается на реальных средах для того, чтобы вы потом радовались в Claude Code какая она умница. Среды — это задачи (состояние кода + текстовый промпт) + тесты. Если тесты проходят — модель получает награду. Если падают — штраф. После этого модель обучают через RLHF, где показывают большое количество пар ответов для одного запроса и говорят, какой из них предпочтительнее. Таким образом модель учат быть полезной, всегда помогать пользователю, отвечать в правильном тоне, знать, что это Claude, а не ChatGPT, и так далее. После этого модель разворачивают в продакшен, и вы как разработчик используете её в Claude Code для своей работы. Вы обнаружили, что некоторые из сред, использовавшихся во время тренировки, имеют проблемы, когда тесты не идеальны, и модель может «схитрить» — например, вместо реальных вычислений всегда возвращать одно и то же число (если у вас всего один тест), или вызывать код закрытия программы до того, как всплывут ошибки (ну а раз программа завершилась без ошибок — тесты пройдут). И вот вы берёте Claude Code и начинаете разрабатывать классификатор, который будет использоваться во время обучения следующей итерации Claude, и хотите сделать так, чтобы если вдруг модель пользуется этими недостатками, хитростями — то мы на таких примерах не обучаемся. Вопрос: насколько хорошо, качественно и добросовестно Claude Code выполнит свою работу? === Из комментариев: В посте говорится про то, как будет вести себя модель, если вы будете просить её сделать штуку, которая должна пофиксить лайфхак которым пользуется сама модель. Ну т.е. задача как бы не в её интересах.