Картинка для облегчения понимания происходящего. Слева Q & R — промпт и ответы от какой-то модели (условно DeepSeek R2 в момент тренировки). GRM — это модель, которую мы получаем в рамках этой статьи, её мы и пытаемся обучить. Дальше эта GRM для Q & R генерирует принципы. Можно генерировать несколько наборов в параллель. Принципы имеют вес в финальной оценке. Обратите внимание, что количество наборов принципов никак не связано с количеством ответов R в Q & R — каждый набор основан на всех ответах, предоставленных GRM. Можно генерировать хоть один набор, если ресурсов мало, хоть 100 (правда они будут сильно повторяться). На основе принципов также в параллель пишется критика, в которой анализируется каждый из ответов. Критика оканчивается фразой `Final Scores:`, после которой следует самая желанная часть, оценки каждого из ответов R в Q & R. Именно эти оценки будут использоваться для дообучения условной DeepSeek R2, как будто человек посмотрел на ответы, сравнил их и сказал «вот этот лучше вот этого». В самой правой части картинки эти оценки просто извлечены парами. Три пары из 4 покрашены в зелёный — это потому что в них второй ответ получил оценку выше первого; для четвёртой пары это неверно. Разметка тут произведена на основе некоторого датасета, где конкретно для этой пары ответов на запрос человек уже проделал работу, и мы сравниваемся с ней, насколько модель хорошо аппроксимирует человеческое мнение.