Авторы конечно показывают что модель улучшается по разным оценкам и всё круто,… — @seeallochnaya

Авторы конечно показывают что модель улучшается по разным оценкам и всё круто, это не так интересно. Интересно другое. Часто во время обучения через RL происходит reward hacking, когда обучаемая модель вместо выдачи хороших результатов начинает эксплуатировать неидеальность оценщика. Рассуждающие модели, как раз такие GRM, про которые мы говорили вчера, этому подвержены меньше, так как могут написать длинную критику и трезво оценить проблемы, разложить всё по полочкам: «так, ну тут вода и хрень написана, а это вообще не к месту. Минус баллы». Какого рода проблемы могут быть в творческом письме? Авторы выявляют две: — длина текста (чем длиннее, тем в среднем выше оценка); то же самое происходит и с людьми, как показала LMArena — длина объяснения в тексте, когда ответ сопровождается длинными, часто ненужными, комментариями, добавленному как бы ни к месту Исследователи сравнивают свою модель по этому показателю с двумя другими (см. картинку): Первая строчка — обучение на тех же данных и также, но где вместо модели-оценщика GRM простая scalarRM (не пишет критику, просто сразу выдаёт одно число) Третья строчка — WritingSFT, это внутренняя модель компании, обученная без RLVR, просто на написанных людьми цепочках рассуждений и финальных текстах. Так как тут нет RL, то модель не подвержена проблемам, описанным выше, и просто следует тем паттернам, что были в примерах, написанных людьми. И вторая строчка — это как раз модель с подходом из статьи. Видно, что она почти не добавляет ненужного текста с объяснениями (последняя колонка), и при этом средняя длина ответа почти как у WritingSFT. Говоря иначе, модель пишет чётко и по делу, без воды. Таким образом можно сказать, что RL не привёл к reward hacking, и GRM в этом помогает.

Из этого канала