Авторы конечно показывают что модель улучшается по разным оценкам и всё круто, это не так интересно. Интересно другое. Часто во время обучения через RL происходит reward hacking, когда обучаемая модель вместо выдачи хороших результатов начинает эксплуатировать неидеальность оценщика. Рассуждающие модели, как раз такие GRM, про которые мы говорили вчера, этому подвержены меньше, так как могут написать длинную критику и трезво оценить проблемы, разложить всё по полочкам: «так, ну тут вода и хрень написана, а это вообще не к месту. Минус баллы». Какого рода проблемы могут быть в творческом письме? Авторы выявляют две: — длина текста (чем длиннее, тем в среднем выше оценка); то же самое происходит и с людьми, как показала LMArena — длина объяснения в тексте, когда ответ сопровождается длинными, часто ненужными, комментариями, добавленному как бы ни к месту Исследователи сравнивают свою модель по этому показателю с двумя другими (см. картинку): Первая строчка — обучение на тех же данных и также, но где вместо модели-оценщика GRM простая scalarRM (не пишет критику, просто сразу выдаёт одно число) Третья строчка — WritingSFT, это внутренняя модель компании, обученная без RLVR, просто на написанных людьми цепочках рассуждений и финальных текстах. Так как тут нет RL, то модель не подвержена проблемам, описанным выше, и просто следует тем паттернам, что были в примерах, написанных людьми. И вторая строчка — это как раз модель с подходом из статьи. Видно, что она почти не добавляет ненужного текста с объяснениями (последняя колонка), и при этом средняя длина ответа почти как у WritingSFT. Говоря иначе, модель пишет чётко и по делу, без воды. Таким образом можно сказать, что RL не привёл к reward hacking, и GRM в этом помогает.
Авторы конечно показывают что модель улучшается по разным оценкам и всё круто,…
Из этого канала
- #2836Business Insider пишет про смену парадигмы тренировки роботов Tesla Optimus,…
Business Insider пишет про смену парадигмы тренировки роботов Tesla Optimus, тезисно: — в конце июля сотрудникам сообщили, что направление будет больше…
- #2837OpenAI делают менеджерские перестановки и поглощают за $1.1B стартап Statsig,…
OpenAI делают менеджерские перестановки и поглощают за $1.1B стартап Statsig, занимающийся продвинутым A/B тестированием и выкаткой фичей.
- #2839В SWE-ReBench добавили 52 новых задачи за август, результаты по ним на первой…
В SWE-ReBench добавили 52 новых задачи за август, результаты по ним на первой картинке.
- #2834После этого считаем, что у нас есть GRM для качественной оценки творческого…
После этого считаем, что у нас есть GRM для качественной оценки творческого письма, и теперь уже можно учить LLM, которая будет хорошо писать (потому что её во…
- #2833Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable…
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards Вчера мы разбирали статью DeepSeek, в которой рассказывалось, как…