Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова предлагается сначала сделать разогрев в SFT-стиле, а затем запускать RL для обучения рассуждениям на самостоятельный поиск ответов, но есть некоторые отличие от WebDancer. Авторы отмечают, что открытые LRM (Large Reasoning Models), такие как QwQ‑32B, могут иногда порождать корректные траектории поиска ответа на вопрос, прямое дообучение на их рассуждениях работает плохо. Они выделяют две критические проблемы: проблемы со стилем (модели сходят с ума / пишут несусветицу, непонятные тексты) и большое количество воды и ненужных действий (как побочный результат RL). Если на этом обучать агента — получится шлак. Решение такое: 1) Берём LRM (авторы не говорят какую именно, хотя в прошлые разы говорили про QwQ + она упомянута в контексте. Может быть используют DeepSeek и не хотели писать? Или проприетарные o1/o3 и нарушают правила использования?) 2) Промптим её точно так же, как в прошлый раз: даём возможность отправлять запросы в гугл, смотреть на топ-10 результатов, переходить по ссылкам и получать aspect based summarization. Единственное отличие — теперь HTML-код страницы переводят в удобочитаемый для модели текст с помощью сервиса Jina.AI, а уже его суммаризуют и возвращают агенту 3) для успешных траекторий, где модель чудом пришла к правильному ответу, выкидываем рассуждения. Сохраняем только последовательности пар (наблюдение -> действие). Получается у нас есть «что» и «как», но нет «почему» 4) затем последовательность подают в другую LLM (уже не LRM, скорее всего Instruct-модель) и просят написать краткую цепочку рассуждений, оправдывающую действие (поисковый запрос или выбор ссылки из результата поиска). Это критически важно, и итоговая цепочка рассуждений будет достаточно компактной для многоступенчатых задач. Такой метод позволяет масштабируемо генерировать данные — и исходных графов куча, и никакая часть процесса не требует вмешательства человека. На этих данных будут тренировать модель перед RL-шагом, как я написал выше. Ещё сделают две фильтрации: — по длине, чтобы траектории не были длиннее 32 тысяч токенов (просто у них базовая модель столько поддерживает) — по количеству вызовов инструментов, чтобы было не меньше 5; количество поисковых запросов/переходов по ссылке можно рассматривать как прокси к сложности, и тогда выходит, что выкидываем самые простые примеры
Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова…
Из этого канала
- #2914Сам по себе датасет получается сложным: это видно по сравнению количества…
Сам по себе датасет получается сложным: это видно по сравнению количества действий, необходимых для ответа на вопрос, с другими бенчмарками, уже упомянутым…
- #2916Напоследок запускают RL поверх разогретой модели. Предлагают использовать свою…
Напоследок запускают RL поверх разогретой модели. Предлагают использовать свою модификацию DAPO, упомянутого вчера: Duplicating Sampling Policy Optimization…
- #2917😢 разборы становятся всё длиннее и длиннее
😢 разборы становятся всё длиннее и длиннее
- #2912Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы…
Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы описывают примерный процесс его создания, но в этот раз опускают множество деталей,…
- #2911WebSailor: Navigating Super-human Reasoning for Web Agent Третья статья в цикле…
WebSailor: Navigating Super-human Reasoning for Web Agent Третья статья в цикле разборов Tongyi DeepResearch (вторая разобрана тут).