А давайте вот такой эксперимент представим: вы Anthropic, тренируете мощную LLM писать код, используя Reinforcement Learning (RL) и заставляете модель рассуждать перед ответами. Модель самая настоящая, не игрушечная, и обучается на реальных средах для того, чтобы вы потом радовались в Claude Code какая она умница. Среды — это задачи (состояние кода + текстовый промпт) + тесты. Если тесты проходят — модель получает награду. Если падают — штраф. После этого модель обучают через RLHF, где показывают большое количество пар ответов для одного запроса и говорят, какой из них предпочтительнее. Таким образом модель учат быть полезной, всегда помогать пользователю, отвечать в правильном тоне, знать, что это Claude, а не ChatGPT, и так далее. После этого модель разворачивают в продакшен, и вы как разработчик используете её в Claude Code для своей работы. Вы обнаружили, что некоторые из сред, использовавшихся во время тренировки, имеют проблемы, когда тесты не идеальны, и модель может «схитрить» — например, вместо реальных вычислений всегда возвращать одно и то же число (если у вас всего один тест), или вызывать код закрытия программы до того, как всплывут ошибки (ну а раз программа завершилась без ошибок — тесты пройдут). И вот вы берёте Claude Code и начинаете разрабатывать классификатор, который будет использоваться во время обучения следующей итерации Claude, и хотите сделать так, чтобы если вдруг модель пользуется этими недостатками, хитростями — то мы на таких примерах не обучаемся. Вопрос: насколько хорошо, качественно и добросовестно Claude Code выполнит свою работу? === Из комментариев: В посте говорится про то, как будет вести себя модель, если вы будете просить её сделать штуку, которая должна пофиксить лайфхак которым пользуется сама модель. Ну т.е. задача как бы не в её интересах.
А давайте вот такой эксперимент представим: вы Anthropic, тренируете мощную LLM…
Из этого канала
- #3137Не обращайте внимание, гифка абсолютно никак не связана с постом выше 🙂
Не обращайте внимание, гифка абсолютно никак не связана с постом выше 🙂
- #3138Простите ответ на посты выше будет поздно вечером, вышло интервью с Илюхой…
Простите ответ на посты выше будет поздно вечером, вышло интервью с Илюхой https://www.youtube.com/watch?v=aR20FWCCjAs
- #3139😳 ещё DeepMind свой фильм выложили (про путь компании и CEO Demis Hassabis к…
😳 ещё DeepMind свой фильм выложили (про путь компании и CEO Demis Hassabis к Нобелевской премии) https://www.youtube.com/watch?v=d95J8yzvjbQ
- #3134Forecasting AI Time Horizon Under Compute Slowdowns В начале года METR…
Forecasting AI Time Horizon Under Compute Slowdowns В начале года METR представили свою работу по AI Time Horizon — оценку того, как долго агент может…
- #3133Ииии вот из-под крыла Белого Дома выходит анонс THE GENESIS MISSION —…
Ииии вот из-под крыла Белого Дома выходит анонс THE GENESIS MISSION — инициативы, направленной на использование AI в науке.