После этого считаем, что у нас есть GRM для качественной оценки творческого… — @seeallochnaya

После этого считаем, что у нас есть GRM для качественной оценки творческого письма, и теперь уже можно учить LLM, которая будет хорошо писать (потому что её во время тренировки будет оценивать качественный учитель). Авторы называют свой подход Bootstrapped Relative Policy Optimization (BRPO). Проблема GRPO в том, что он считает среднее по всей группе генераций, а затем «хорошие» и «плохие» варианты выбираются относительно этого среднего. Для креативного письма это будет работать хуже, так как сложно сделать объективную оценку, выбрать что-то среднее итд. Поэтому авторы переходят к более простой задаче: выбор случайного в группе + сравнение всех вариантов генерации с ним. Здесь тоже используется Dynamic Sampling, но слегка другой. Как я написал, в рамках группы выбирается случайный ответ — он называется референсным, и с ним идёт сравнение всех остальных генераций. Во время тренировки может выйти так, что выбранный пример является выбросом — слишком хорошей генерацией или слишком плохой. Это приведёт к тому, что при оценке advantage на основе группы генераций на фоне этого выброса все тексты будут оценены или очень высоко, или очень плохо. Поэтому предлагается выкидывать из батча такие запросы, для которых выбранный референсный текст выбивается. Там написана формула, которую долго объяснять, поэтому на пальцах: пусть в группе 16 генераций (то есть для одного запроса LLM сгенерирует 16 текстов, а GRM даст 16 критик + 16 оценок, по одной на генерацию). Если 13 и более генераций проигрывают или выигрывают референсной — выкидываем. Таким образом, мы всегда держим пачку текстов, в которой есть достаточная доля и хороших, и плохих текстов, что позволяет получать качественный сигнал для обучения. Но это же и стреляет в ногу: чем дольше идёт обучение, тем сложнее этого добиться; авторы пишут, что после 400 шагов тренировки они уже выкидывают 80% примеров — а ведь перед тем как выкинуть вам нужно его прогнать, сгенерировать несколько текстов, потом несколько критик, оценок. На всё это тратится много вычислений, которые идут вникуда.

Из этого канала