Картинка для облегчения понимания происходящего. Слева Q & R — промпт и ответы от какой-то модели (условно DeepSeek R2 в момент тренировки). GRM — это модель, которую мы получаем в рамках этой статьи, её мы и пытаемся обучить. Дальше эта GRM для Q & R генерирует принципы. Можно генерировать несколько наборов в параллель. Принципы имеют вес в финальной оценке. Обратите внимание, что количество наборов принципов никак не связано с количеством ответов R в Q & R — каждый набор основан на всех ответах, предоставленных GRM. Можно генерировать хоть один набор, если ресурсов мало, хоть 100 (правда они будут сильно повторяться). На основе принципов также в параллель пишется критика, в которой анализируется каждый из ответов. Критика оканчивается фразой `Final Scores:`, после которой следует самая желанная часть, оценки каждого из ответов R в Q & R. Именно эти оценки будут использоваться для дообучения условной DeepSeek R2, как будто человек посмотрел на ответы, сравнил их и сказал «вот этот лучше вот этого». В самой правой части картинки эти оценки просто извлечены парами. Три пары из 4 покрашены в зелёный — это потому что в них второй ответ получил оценку выше первого; для четвёртой пары это неверно. Разметка тут произведена на основе некоторого датасета, где конкретно для этой пары ответов на запрос человек уже проделал работу, и мы сравниваемся с ней, насколько модель хорошо аппроксимирует человеческое мнение.
Картинка для облегчения понимания происходящего. Слева Q & R — промпт и ответы…
Из этого канала
- #2826Такая модель будет учиться в два этапа: — Rejective Fine-Tuning (RFT), чтобы…
Такая модель будет учиться в два этапа: — Rejective Fine-Tuning (RFT), чтобы «прогреть» модель, дать ей базовое понимание хорошо / плохо, понимание формата…
- #2827Можно сказать, что на этом всё — теперь модель можно замерять на разных…
Можно сказать, что на этом всё — теперь модель можно замерять на разных бенчмарках.
- #2828Сравнение с другими подходами. Оно не особо информативно, как по мне, главное…
Сравнение с другими подходами. Оно не особо информативно, как по мне, главное что MetaRM накидывает, и позволяет иметь лучшее качество даже при 4 генерациях…
- #2824Inference-Time Scaling for Generalist Reward Modeling Разбор весенней статьи от…
Inference-Time Scaling for Generalist Reward Modeling Разбор весенней статьи от DeepSeek, я прочитал сразу как вышла, но долго откладывал разбор, не доходили…
- #2823На сайте OpenAI есть много вакансий, в некоторых иногда можно углядеть…
На сайте OpenAI есть много вакансий, в некоторых иногда можно углядеть интересное.