Всем привет! Рад сообщить о нашем новом релизе RuadaptQwen3-32B-Instruct 🎉. Это адаптированная версия Qwen3-32B, которая также является гибридным ризонером с режимом размышлений по-умолчанию. Отличия текущего релиза от прошлых: 1. Версионирование: теперь версионирование моделей будет идти внутри одного репозитория, но в Versions будут отмечены даты и соответствующие коммиты, которые могут быть использованы, если кому-то больше понравится “прошлая версия”. Таким образом мне проще выкладывать текущие наработки, которые я все еще не могу назвать итоговыми, но которые уже неплохи на мой взгляд. 2. Процедура адаптации была улучшена: токенайзер содержит потерянные смайлы и не содержит ненужных цифр, количество данных в continued pretraining было увеличено вдвое и еще несколько минорных изменений процедуры, которые приводят к бОльшему качеству на выходе. Так как для Qwen3-32B не была выложена базовая версия, мы сделали ее сами, дообучив только эмбеддинги (входные и выходные) на +-миллиарде токенов. 3. Новый набор для SFT и пока что отсутствие Pref-tuning этапа: в этот раз данные для обучения были сгенерированы на основе большой модели Qwen3-235B-A22B. Для сохранения функции переключения между режимами, в 30% случаев think содержимое выбрасывалось и добавлялся /no_think токен к последнему сообщению пользователя. Для 10% случаев, когда размышления оставались добавлялся токен /think. Используемый датасет выложен и упомянут в карточке модели. 4. Метрик пока нет, но в целом имеется некоторая просадка на мат. задачах, однако для обычного использования все должно быть +- на уровне исходной версии. Если заметите плохие или наоборот хорошие стороны модели - обязательно пишите, так как сейчас активно идут работы над инструктивной частью и фидбек по поводу проблем будет очень актуален. Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF Space: https://huggingface.co/spaces/RefalMachine/RuadaptQwen3
Всем привет! Рад сообщить о нашем новом релизе RuadaptQwen3-32B-Instruct 🎉. Это…
Из этого канала
- #1110ллмный RL апдейтит лишь 5%-30% весов и эти веса образуют подсеть, которую можно…
ллмный RL апдейтит лишь 5%-30% весов и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет…
- #1114ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.…
ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения. Сгенерили через openai api, получилось очень приятно, пользуйтесь! Huggingface
- #1115Ну что как вам клод 4? Чот у меня пока неоднозначненько. Пока тыкаю сонет в…
Ну что как вам клод 4? Чот у меня пока неоднозначненько. Пока тыкаю сонет в курсоре, но блин он реально часто делает что-то не то.
- #1108https://huggingface.co/mistralai/Devstral-Small-2505 Новая кодовая агентная…
https://huggingface.co/mistralai/Devstral-Small-2505 Новая кодовая агентная открытая моделька от мистраля.
- #1107Ребят, если что интересного увидите в презухе гугла, черкните в коменты плиз И…
Ребят, если что интересного увидите в презухе гугла, черкните в коменты плиз И надо будет посчитать количество упоминаний ИИ агентов