Напоследок запускают RL поверх разогретой модели. Предлагают использовать свою модификацию DAPO, упомянутого вчера: Duplicating Sampling Policy Optimization (DUPO). В DAPO если для каких-то задач в батче все 8 параллельных генераций привели к одному и тому же результату (все правильные или все неправильные), то их обычно выкидывают, берут несколько новых, и повторяют до тех пор, пока не наберётся нужное количество, равное размеру батча. Это медленно и заставляет дорогой кластер частично простаивать, превращая распределённое обучение в параллельный перебор запросов, для которых текущая модель может найти ответ. Duplicating Sampling делает просто: выкидывает такие примеры и заменяет их на случайные уже посчитанные, поэтому и Duplicating. Честно говоря звучит глупо, ведь виртуально батч уменьшается, что критично, а некоторые примеры начинают иметь больший вес, внося некоторое смещение. В остальном всё то же: снова бинарная награда за форматирование ответа с весом 0.1 и бинарная награда за корректность ответа с весом 0.9. В этот раз указали, что тренируют 50 RL-шагов, что с одной стороны не так много, а с другой каждый шаг сжирает ОГРОМНОЕ количество вычислений: ведь для каждого из 128 промптов нужно сделать по 8 параллельных полноценных цепочек поиска, каждая длинной по 5-30 действий (десятки тысяч токенов). DeepSeek-R1, для сравнения, тренировали больше 8000 шагов (но там каждая цепочка была в одно действие, если так можно сравнить). Из интересного — проанализировали качество модели с добавлением вышеупомянутого разогрева (SFT на корректных траекториях) и без. Результаты на картинке. Видно, что просадка по метрикам существенная. На третьем графике показана динамика среднего количества действий, и модель без разогрева даже в конце тренировки просто не может догнать дообученную. Это указывает на неспособность освоить рассуждения с длинным горизонтом планирования. Наверное, если учить сильно дольше, то оно как-то там поднимется и может даже сравняется — но это ж очень большое количество мощностей надо потратить, что неэффективно. Если уходить за рамки оценки бенчмарками и смотреть, что пишет модель, то авторы отмечают то же самое, что мы видели у o1 / DeepSeek R1: WebSailor может демонстрировать склонность к самонакручиванию, применяя сложную логику и делая десяток действий даже в ответ на, казалось бы, простые вопросы. Однако это не однозначный недостаток: качественный анализ показывает, что во многих таких случаях агент не блуждает по интернету наугад, а выполняет перекрёстную проверку, используя разные источники информации для валидации первоначального «очевидного» ответа. Ну а вдруг задачка с подвохом? Тут каждый второй в комментариях сетует, что, мол, сын в третьем классе разобрался, а умная модель — нет 😂