Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть. Контекст 131,072 токенов https://qwenlm.github.io/blog/qwq-32b/ https://huggingface.co/Qwen/QwQ-32B 4-bit AWQ: https://huggingface.co/Qwen/QwQ-32B-AWQ GGUF 2-8bit кванты: https://huggingface.co/Qwen/QwQ-32B-GGUF В целом дроп этот я ждал, ибо еще на той неделе в иксах и редитах писали что вот скоро чего-та будет. Пишут много про РЛ. Применяли РЛ, и дальше будут ЕЩЕ БОЛЬШЕ делать РЛ. (а мне большего-то и не надо...) Мы начали с контрольной точки холодного старта и реализовали масштабируемый подход обучения с подкреплением (RL), основанный на вознаграждениях, зависящих от результатов. На начальном этапе мы масштабировали RL специально для задач по математике и программированию. Вместо того чтобы полагаться на традиционные модели вознаграждений, мы использовали проверку точности для математических задач, чтобы обеспечить правильность окончательных решений, и сервер выполнения кода для оценки успешности прохождения сгенерированного кода по заранее заданным тест-кейсам. По мере прохождения тренировочных эпизодов производительность в обеих областях демонстрировала постоянное улучшение. После первого этапа мы добавляем ещё один этап RL для общих возможностей. Он обучается с вознаграждениями от общей модели вознаграждений и некоторыми верификаторами, основанными на правилах. Мы обнаружили, что этот этап обучения с подкреплением с небольшим количеством шагов может повысить производительность других общих возможностей, таких как следование инструкциям, согласование с предпочтениями человека и производительность агента, без значительного снижения эффективности в математике и программировании. Это знаменует собой первый шаг Qwen в масштабировании обучения с подкреплением (RL) для повышения способностей к рассуждению. В ходе этой работы мы не только увидели огромный потенциал масштабированного RL, но и осознали, насколько велики ещё неиспользованные возможности предварительно обученных языковых моделей. Разрабатывая следующее поколение Qwen, мы уверены, что объединение более мощных фундаментальных моделей с обучением с подкреплением, использующим масштабируемые вычислительные ресурсы, приблизит нас к достижению искусственного общего интеллекта (AGI). Кроме того, мы активно изучаем возможность интеграции агентов с обучением с подкреплением для обеспечения долгосрочного планирования и рассуждений, стремясь раскрыть ещё более высокий уровень интеллекта посредством масштабирования во время инференса. PS собираемся и собираем все крутое по ризонингу тут https://t.me/researchim
Квены дают QwQ-32B. Моделька с размышлениями, которую можно у себя развернуть.…
Из этого канала
- #981AMD выложили 3B модельки трененые на MI300X…
AMD выложили 3B модельки трененые на MI300X https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html…
- #982хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день…
хотел полистать серваки, открыл первый а там RL-агенты 🕺🕺🕺 Сразу понял что день будет отличным
- #986Учим модельки решать интегралы через декомпозицию задач и обучение на более…
Учим модельки решать интегралы через декомпозицию задач и обучение на более простых вариантах. С RLем конечно же.
- #979reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю…
reinforcementlearningreinforcementlearningreinforcementlearning Ну шьто? Эндрю Барто и Ричард Саттон получают премию Тьюринга за RL 🥳🕺🥰…
- #976Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С…
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.