Лучший результат получается у дообученной QwQ на 32 миллиарда параметров — на… — @seeallochnaya

Лучший результат получается у дообученной QwQ на 32 миллиарда параметров — на 10%+- лучше, чем Qwen-2.5 такого же размера. Однако здесь есть интересный момент — помните мы по итогу нафильтровали два набора данных, от GPT-4o (Short-CoT) и QwQ (Long-CoT)? Авторы обучают обычные Qwen на каждом из них, а также QwQ, и замеряют метрики, включая Inv (Invalid) — доли ответов, где модель ушла в само-повторения, ошибается с форматом ответом или сходит с ума по другому. Если тренировать на Short-CoT, на ответах GPT-4o, то это происходит редко (левая половина таблицы). Если на Long-CoT, от QwQ, то основные метрики поиска выше (колонки Pass@3 и Cons@3), но и доля невалидных ответов выше — на 10-20% (самая правая колонка)! Объяснения никакого не приводится, но я думаю что это связано с качеством самой QwQ, она всё же во многом была экспериментальной, немного «дикой», и цепочки рассуждений могли быть шумными и плохо написанными, потому обучение на них приводит к такому результату. === Обратите внимание, что мы всё ещё не ушли от парадигмы вопросов с простым односложным ответом — это не то же самое, что Deep Research от OpenAI, где на ваш запрос выдадут целый отчёт на несколько страниц. Я бы сказал, что каждая часть пайплайна из описанных выше нуждается в прокачке: от данных для валидации и тренировки до RL-процедуры. Что с этим сделают? Узнаем в следующих сериях!

Из этого канала