Лучший результат получается у дообученной QwQ на 32 миллиарда параметров — на 10%+- лучше, чем Qwen-2.5 такого же размера. Однако здесь есть интересный момент — помните мы по итогу нафильтровали два набора данных, от GPT-4o (Short-CoT) и QwQ (Long-CoT)? Авторы обучают обычные Qwen на каждом из них, а также QwQ, и замеряют метрики, включая Inv (Invalid) — доли ответов, где модель ушла в само-повторения, ошибается с форматом ответом или сходит с ума по другому. Если тренировать на Short-CoT, на ответах GPT-4o, то это происходит редко (левая половина таблицы). Если на Long-CoT, от QwQ, то основные метрики поиска выше (колонки Pass@3 и Cons@3), но и доля невалидных ответов выше — на 10-20% (самая правая колонка)! Объяснения никакого не приводится, но я думаю что это связано с качеством самой QwQ, она всё же во многом была экспериментальной, немного «дикой», и цепочки рассуждений могли быть шумными и плохо написанными, потому обучение на них приводит к такому результату. === Обратите внимание, что мы всё ещё не ушли от парадигмы вопросов с простым односложным ответом — это не то же самое, что Deep Research от OpenAI, где на ваш запрос выдадут целый отчёт на несколько страниц. Я бы сказал, что каждая часть пайплайна из описанных выше нуждается в прокачке: от данных для валидации и тренировки до RL-процедуры. Что с этим сделают? Узнаем в следующих сериях!
Лучший результат получается у дообученной QwQ на 32 миллиарда параметров — на…
Из этого канала
- #2911WebSailor: Navigating Super-human Reasoning for Web Agent Третья статья в цикле…
WebSailor: Navigating Super-human Reasoning for Web Agent Третья статья в цикле разборов Tongyi DeepResearch (вторая разобрана тут).
- #2912Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы…
Итак, чтобы научить модель отвечать на такие вопросы нужен датасет. Авторы описывают примерный процесс его создания, но в этот раз опускают множество деталей,…
- #2913Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова…
Теперь у нас есть датасет «сложный вопрос — простой ответ». В статье снова предлагается сначала сделать разогрев в SFT-стиле, а затем запускать RL для обучения…
- #2909Ну и всё, теперь дело за малым: берём дообученные модели и запускаем RL-цикл.…
Ну и всё, теперь дело за малым: берём дообученные модели и запускаем RL-цикл. Вместо GRPO авторы используют свежую модификацию от ByteDance Seed, Decoupled…
- #2908Дальше на основе этих данных хочется обучить свою модель. Так как на дворе…
Дальше на основе этих данных хочется обучить свою модель. Так как на дворе весна 2025-го, и DeepSeek R1 уже вышла, и рассуждающие модели на хайпе, то хочется…