Дальше на основе этих данных хочется обучить свою модель. Так как на дворе… — @seeallochnaya

Дальше на основе этих данных хочется обучить свою модель. Так как на дворе весна 2025-го, и DeepSeek R1 уже вышла, и рассуждающие модели на хайпе, то хочется учить модель через Reinforcement Learning-подходы с рассуждениями по типу GRPO. Но если базовая модель показывает около-нулевое качество, то вы рискуете потратить много ресурсов вникуда, поэтому почти всегда делают cold start — «прогрев» модели данными в нужном формате и релевантные задаче. Для этого берут GPT-4o / QwQ‑Plus (была такая рассуждающая модель у AliBaba) и промптят их в ReAct-стиле: дают наблюдение, просят выбрать одно из действий, выполняют его и результат добавляют в промпт, и так делают в цикле, пока выбранное действие не будет «дать ответ». Доступных действий, описанных в промпте, 3: — поиск (принимает на вход текстовый запрос, который отправят в условный гугл, и год для фильтра выдачи поиска) — перейти по ссылке (принимает на вход URL из выдачи поиска и цель перехода на страницу, о ней ниже) — дать ответ (просто строка с ответом, если модель решит, что информации достаточно) Поиск возвращает топ-10 результатов в виде ссылок и краткого сниппета (как вы видите на странице гугла). Когда модель решает перейти по той или иной ссылке, она описывает «цель» — какую частичку информации на этой странице нужно найти. И дальше контент этой страницы, вопреки интуиции, НЕ попадает в промпт модели — вместо этого вся странница суммаризуется запромпченным Qwen-2.5-72B, который получает на вход цель. Например, если нам нужно найти год рождения какого-то деятеля, то поисковый запрос может включать его имя, первая ссылка будет на Википедию, и агент решит выбрать действие «перейти по ссылке», передав в качестве цели «год рождения». Qwen-2.5-72B сделает суммаризацию так, чтобы сохранить ответ с учётом этой цели — такое называется aspect based summarization. Этот результат передадут обратно агенту в качестве наблюдения, и он уже может решить, что делать дальше — давать окончательный ответ, снова искать или переходить по другой ссылке, если вдруг нужной информации не нашлось. Этот цикл из «наблюдение — рассуждения —действие» прогоняется для каждого вопроса по 10 раз: 5 раз GPT-4o и 5 раз QwQ-Plus; у них слегка отличаются промпты из-за специфики рассуждающих моделей и форматов ответов. Цепочки рассуждений у QwQ-Plus длиннее, ибо это рассуждающая модель, и все они сохраняются для дальнейшего дообучения моделей. Дальше выкидывают все вопросы, на которые модель ни разу не смогла ответить правильно. К сожалению, это не означает, что данные качественные, поэтому их фильтруют в 2 этапа: — выкидывают траектории, где были нарушения формата вызова действий (tool calls, вот эти «поиск», «перейти по ссылке» и «дать ответ») — в траекториях, где больше 2 действий, часто наблюдаются галлюцинации и повторения, когда модель ходит по кругу; их обнаруживают через эвристики и подсчёт n-грамм и выкидывают. Тут же делают фильтр по критериям «отсутствие избыточной информации, согласованность, логическое обоснование, точность», но промпт для этого не приводят. Итого после всех фильтраций у GPT-4o получается 7678 вопросов (из исходных 100 тысяч), в среднем 4.5 действий на ответ и 510 токенов на рассуждения; у QwQ-Plus — 6550 вопросов, 2.31 действий и 1600 токенов рассуждений. Полученные датасеты называются Short-CoT и Long-CoT соответственно — на них тренируют модели Qwen-2.5 разных размеров. Именно эти дообученные модели будут использоваться для RL-стадии. Тренировка просто в режиме предсказания следующего токена, то есть классический SFT, однако функция потерь не считается на токенах наблюдений (поисковая выдача / саммари веб-страниц; всё то, что пишет не обучаемая модель).

Из этого канала