Ну и всё, теперь дело за малым: берём дообученные модели и запускаем RL-цикл. Вместо GRPO авторы используют свежую модификацию от ByteDance Seed, Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO). Разбор я не писал, да и детали наверняка не так интересны, но если что, разбор можно глянуть вот тут. Очень важная деталь: на этом этапе возвращают пары вопрос-ответ, которые выкинули из-за фильтров, описанных выше. Почему? Потому что в DAPO используется динамическое семплирование, при котором обучение не происходит на тех объектах, для которых все результаты — нули или единицы. Другими словами если вопрос плохо сформулирован / ответ неправильный / что-то ещё, то и обучаемая модель не сможет на него ответить — поэтому все траектории (роллауты) будут оценены нулём, а значит выкинуты. Да, мы потратим мощности на обработку, чтобы понять это, ну и что — AliBaba может себе позволить 👶 Функция награды для RL здесь состоит из двух компонент: — с весом 0.1 дают бинарную награду за правильное форматирование рассуждений и вызова инструментов (поиск/переходы по ссылкам) — с весом 0.9 дают бинарную награду за правильный ответ; правильность определяется отдельно запромпченной Qwen‑72B‑Instruct (промпт есть в статье), которой на вход передают вопрос, правильный ответ из датасета и ответ обучаемой модели. В статье даже не пишут, сколько RL-шагов они делают, ну и ладно. На картинке ниже отображён двухстадийный процесс обучения в деталях:
Ну и всё, теперь дело за малым: берём дообученные модели и запускаем RL-цикл.…
Из этого канала
- #2910Лучший результат получается у дообученной QwQ на 32 миллиарда параметров — на…
Лучший результат получается у дообученной QwQ на 32 миллиарда параметров — на 10%+- лучше, чем Qwen-2.5 такого же размера.
- #2911WebSailor: Navigating Super-human Reasoning for Web Agent Третья статья в цикле…
WebSailor: Navigating Super-human Reasoning for Web Agent Третья статья в цикле разборов Tongyi DeepResearch (вторая разобрана тут).
- #2912Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы…
Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы описывают примерный процесс его создания, но в этот раз опускают множество деталей,…
- #2908Дальше на основе этих данных хочется обучить свою модель. Так как на дворе…
Дальше на основе этих данных хочется обучить свою модель. Так как на дворе весна 2025-го, и DeepSeek R1 уже вышла, и рассуждающие модели на хайпе, то хочется…
- #2907WebDancer: Towards Autonomous Information Seeking Agency Вторая статья в цикле…
WebDancer: Towards Autonomous Information Seeking Agency Вторая статья в цикле разборов Tongyi DeepResearch (первая разобрана тут).