После этого считаем, что у нас есть GRM для качественной оценки творческого письма, и теперь уже можно учить LLM, которая будет хорошо писать (потому что её во время тренировки будет оценивать качественный учитель). Авторы называют свой подход Bootstrapped Relative Policy Optimization (BRPO). Проблема GRPO в том, что он считает среднее по всей группе генераций, а затем «хорошие» и «плохие» варианты выбираются относительно этого среднего. Для креативного письма это будет работать хуже, так как сложно сделать объективную оценку, выбрать что-то среднее итд. Поэтому авторы переходят к более простой задаче: выбор случайного в группе + сравнение всех вариантов генерации с ним. Здесь тоже используется Dynamic Sampling, но слегка другой. Как я написал, в рамках группы выбирается случайный ответ — он называется референсным, и с ним идёт сравнение всех остальных генераций. Во время тренировки может выйти так, что выбранный пример является выбросом — слишком хорошей генерацией или слишком плохой. Это приведёт к тому, что при оценке advantage на основе группы генераций на фоне этого выброса все тексты будут оценены или очень высоко, или очень плохо. Поэтому предлагается выкидывать из батча такие запросы, для которых выбранный референсный текст выбивается. Там написана формула, которую долго объяснять, поэтому на пальцах: пусть в группе 16 генераций (то есть для одного запроса LLM сгенерирует 16 текстов, а GRM даст 16 критик + 16 оценок, по одной на генерацию). Если 13 и более генераций проигрывают или выигрывают референсной — выкидываем. Таким образом, мы всегда держим пачку текстов, в которой есть достаточная доля и хороших, и плохих текстов, что позволяет получать качественный сигнал для обучения. Но это же и стреляет в ногу: чем дольше идёт обучение, тем сложнее этого добиться; авторы пишут, что после 400 шагов тренировки они уже выкидывают 80% примеров — а ведь перед тем как выкинуть вам нужно его прогнать, сгенерировать несколько текстов, потом несколько критик, оценок. На всё это тратится много вычислений, которые идут вникуда.
После этого считаем, что у нас есть GRM для качественной оценки творческого…
Из этого канала
- #2835Авторы конечно показывают что модель улучшается по разным оценкам и всё круто,…
Авторы конечно показывают что модель улучшается по разным оценкам и всё круто, это не так интересно. Интересно другое.
- #2836Business Insider пишет про смену парадигмы тренировки роботов Tesla Optimus,…
Business Insider пишет про смену парадигмы тренировки роботов Tesla Optimus, тезисно: — в конце июля сотрудникам сообщили, что направление будет больше…
- #2837OpenAI делают менеджерские перестановки и поглощают за $1.1B стартап Statsig,…
OpenAI делают менеджерские перестановки и поглощают за $1.1B стартап Statsig, занимающийся продвинутым A/B тестированием и выкаткой фичей.
- #2833Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable…
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards Вчера мы разбирали статью DeepSeek, в которой рассказывалось, как…
- #2832Ну и давайте уж сразу не отходя от кассы посмотрим на самый свежий срез за…
Ну и давайте уж сразу не отходя от кассы посмотрим на самый свежий срез за июль. Внезапно GPT-5 оказывается впереди с большим отрывом от всех, особенно на…