Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова… — @seeallochnaya

Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова предлагается сначала сделать разогрев в SFT-стиле, а затем запускать RL для обучения рассуждениям на самостоятельный поиск ответов, но есть некоторые отличие от WebDancer. Авторы отмечают, что открытые LRM (Large Reasoning Models), такие как QwQ‑32B, могут иногда порождать корректные траектории поиска ответа на вопрос, прямое дообучение на их рассуждениях работает плохо. Они выделяют две критические проблемы: проблемы со стилем (модели сходят с ума / пишут несусветицу, непонятные тексты) и большое количество воды и ненужных действий (как побочный результат RL). Если на этом обучать агента — получится шлак. Решение такое: 1) Берём LRM (авторы не говорят какую именно, хотя в прошлые разы говорили про QwQ + она упомянута в контексте. Может быть используют DeepSeek и не хотели писать? Или проприетарные o1/o3 и нарушают правила использования?) 2) Промптим её точно так же, как в прошлый раз: даём возможность отправлять запросы в гугл, смотреть на топ-10 результатов, переходить по ссылкам и получать aspect based summarization. Единственное отличие — теперь HTML-код страницы переводят в удобочитаемый для модели текст с помощью сервиса Jina.AI, а уже его суммаризуют и возвращают агенту 3) для успешных траекторий, где модель чудом пришла к правильному ответу, выкидываем рассуждения. Сохраняем только последовательности пар (наблюдение -> действие). Получается у нас есть «что» и «как», но нет «почему» 4) затем последовательность подают в другую LLM (уже не LRM, скорее всего Instruct-модель) и просят написать краткую цепочку рассуждений, оправдывающую действие (поисковый запрос или выбор ссылки из результата поиска). Это критически важно, и итоговая цепочка рассуждений будет достаточно компактной для многоступенчатых задач. Такой метод позволяет масштабируемо генерировать данные — и исходных графов куча, и никакая часть процесса не требует вмешательства человека. На этих данных будут тренировать модель перед RL-шагом, как я написал выше. Ещё сделают две фильтрации: — по длине, чтобы траектории не были длиннее 32 тысяч токенов (просто у них базовая модель столько поддерживает) — по количеству вызовов инструментов, чтобы было не меньше 5; количество поисковых запросов/переходов по ссылке можно рассматривать как прокси к сложности, и тогда выходит, что выкидываем самые простые примеры

Из этого канала