Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть. Контекст 131,072 токенов https://qwenlm.github.io/blog/qwq-32b/ https://huggingface.co/Qwen/QwQ-32B 4-bit AWQ: https://huggingface.co/Qwen/QwQ-32B-AWQ GGUF 2-8bit кванты: https://huggingface.co/Qwen/QwQ-32B-GGUF В целом дроп этот я ждал, ибо еще на той неделе в иксах и редитах писали что вот скоро чего-та будет. Пишут много про РЛ. Применяли РЛ, и дальше будут ЕЩЕ БОЛЬШЕ делать РЛ. (а мне большего-то и не надо...) Мы начали с контрольной точки холодного старта и реализовали масштабируемый подход обучения с подкреплением (RL), основанный на вознаграждениях, зависящих от результатов. На начальном этапе мы масштабировали RL специально для задач по математике и программированию. Вместо того чтобы полагаться на традиционные модели вознаграждений, мы использовали проверку точности для математических задач, чтобы обеспечить правильность окончательных решений, и сервер выполнения кода для оценки успешности прохождения сгенерированного кода по заранее заданным тест-кейсам. По мере прохождения тренировочных эпизодов производительность в обеих областях демонстрировала постоянное улучшение. После первого этапа мы добавляем ещё один этап RL для общих возможностей. Он обучается с вознаграждениями от общей модели вознаграждений и некоторыми верификаторами, основанными на правилах. Мы обнаружили, что этот этап обучения с подкреплением с небольшим количеством шагов может повысить производительность других общих возможностей, таких как следование инструкциям, согласование с предпочтениями человека и производительность агента, без значительного снижения эффективности в математике и программировании. Это знаменует собой первый шаг Qwen в масштабировании обучения с подкреплением (RL) для повышения способностей к рассуждению. В ходе этой работы мы не только увидели огромный потенциал масштабированного RL, но и осознали, насколько велики ещё неиспользованные возможности предварительно обученных языковых моделей. Разрабатывая следующее поколение Qwen, мы уверены, что объединение более мощных фундаментальных моделей с обучением с подкреплением, использующим масштабируемые вычислительные ресурсы, приблизит нас к достижению искусственного общего интеллекта (AGI). Кроме того, мы активно изучаем возможность интеграции агентов с обучением с подкреплением для обеспечения долгосрочного планирования и рассуждений, стремясь раскрыть ещё более высокий уровень интеллекта посредством масштабирования во время инференса. PS собираемся и собираем все крутое по ризонингу тут https://t.me/researchim