Можно сказать, что на этом всё — теперь модель можно замерять на разных бенчмарках. Но ведь изначальная идея была в масштабировании вычислений, поэтому замерять можно не просто прогоном пар запрос-ответы, а прогонять их по нескольку раз. Но если есть несколько ответов, то их нужно агрегировать — и авторы предлагают две стратегии. Стратегия I, голосование Давайте предположим, что мы сделали 4 параллельных генерации с принципами и критиками, и ответа у нас 2. Пусть это будут ответы [4, 7], [3, 6], [3, 5], [5, 5] — 4 оценки для двух ответов. Авторы предлагают просто их просуммировать и сравнивать финальные цифры: 4+3+3+5=15, 7+6+5+5=23, второй ответ лучше, потому что 15 < 23. Процесс голосования фактически расширяет пространство вознаграждений в k раз (k = количество параллельных и независимых генераций) и позволяет GRM генерировать большое количество принципов, что повышает качество и детализацию оценок вознаграждений. Интуитивное объяснение заключается в том, что если каждый принцип рассматривать как точку зрения, большее количество принципов может точнее отражать реальное распределение, что приводит к улучшению качества. И вот тут авторы пишут явно, что при параллельных генерациях перемешивают ответы в промпте местами. Делают до 32 генераций, чем больше тем лучше по разным бенчмаркам. Стратегия II, MetaRM и голосование Если мы делаем много генераций для одной пары, то есть шанс, что какие-то из них будут менее качественными. Ну, получилось так, что один из принципов дурацкий, и вес у него GRM написала очень большой. Чтобы такое отсечь, авторы тренируют MetaRM — просто классификатор, который получает на вход четверки «запрос—ответы—принципы—критика» и предсказывает 0, если ответ скорее неправильный (то есть критика невалидна), и 1, если скорее правильный. MetaRM тренируются на данных от RFT — помните мы генерировали сотни тысяч ответов и отсекали неправильные? Вот правильные — это единички, а те, что выкинули — нолики, так как эти критики и принципы приводят к неправильной оценке. MetaRM позволяет отфильтровать оценки до того, как мы их просуммируем. Пусть будет также 2 ответа и 4 параллельных генерации, те же оценки [4, 7], [3, 6], [3, 5], [5, 5]. MetaRM для каждой из 4 предскажет по одному числу, [0.8, 0.9, 0.4, 0.5]. Последние два самые маленькие — их выкидываем, и проводим суммирование по первым двум: 4+3 = 7, 7+6=13, второй ответ лучше первого. Выкидываем всегда худшую половину, то есть при 32 генерациях выкинем 16. Показывают, что на бенчмарках MetaRM позволяет ещё больше разогнать качество, особенно на маленьких значениях K (кол-во параллельных генераций), так как там вклад шума может быть большим. А главное её прогон очень дешёвый — модель предсказывает всего одно число за один forward pass, никаких генераций.
Можно сказать, что на этом всё — теперь модель можно замерять на разных…
Из этого канала
- #2828Сравнение с другими подходами. Оно не особо информативно, как по мне, главное…
Сравнение с другими подходами. Оно не особо информативно, как по мне, главное что MetaRM накидывает, и позволяет иметь лучшее качество даже при 4 генерациях…
- #2829Когда написал разбор статьи на 5 постов с утра пораньше
Когда написал разбор статьи на 5 постов с утра пораньше
- #2830"Ещё в конце июля наткнулся на репост вот этого текста парой каналов и хотел…
"Ещё в конце июля наткнулся на репост вот этого текста парой каналов и хотел написать его разгромную критику.
- #2826Такая модель будет учиться в два этапа: — Rejective Fine-Tuning (RFT), чтобы…
Такая модель будет учиться в два этапа: — Rejective Fine-Tuning (RFT), чтобы «прогреть» модель, дать ей базовое понимание хорошо / плохо, понимание формата…
- #2825Картинка для облегчения понимания происходящего. Слева Q & R — промпт и ответы…
Картинка для облегчения понимания происходящего. Слева Q & R — промпт и ответы от какой-то модели (условно DeepSeek R2 в момент тренировки).