Сегодня мы выложили улучшенную версию RefalMachine/RuadaptQwen3-4B-Instruct 🎉 Модель стала лучше по всем фронтам: 1️⃣ На бенчмарке по каждой категории рост, в частности, на математике. 2️⃣ Стабильность модели повысилась (меньше циклов). 3️⃣ На арене также наблюдается рост (при снижении средней длины ответа!). Текущая версия (v2) на данный момент вероятно SoTA для русского языка среди всех тюнов и/или адаптаций 4B модели (на основании нашего бенчмарка). От исходной версии присутствуют небольшие отставания, однако на арене RuadaptQwen3-4B-Instruct стабильно обходит Qwen3-4B, а скорость генерации русскоязычного текста существенно лучше. Бенч можно посмотреть по ссылке (там без арены) https://huggingface.co/datasets/RefalMachine/llmtf_open_benchmark Улучшения связаны с более качественным post-training, включая использование нового SFT датасета (T-Wix), а также добавление preference-tune шага. Веса в основном репозитории и GGUF также обновлены: https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
Сегодня мы выложили улучшенную версию RefalMachine/RuadaptQwen3-4B-Instruct 🎉…
Из этого канала
- #1192Мне кажется, что опенаи скинут опенсурсную модельку сегодня
Мне кажется, что опенаи скинут опенсурсную модельку сегодня
- #1193QVikhr-3-8B-Instruction Пополнение еще одной моделью на базе Qwen 3. В DOoM,…
QVikhr-3-8B-Instruction Пополнение еще одной моделью на базе Qwen 3. В DOoM, QVikhr-3-8B-Instruction получила оценку 0.445, что существенно превосходит…
- #1194я вот только вспомнил Сейчас же RL конференция проходит! Статьи…
я вот только вспомнил Сейчас же RL конференция проходит! Статьи https://rlj.cs.umass.edu/2025/2025issue.html
- #1190шьто ни день то новые соты опенсурсы Обнова самой большой модельки от квенов…
шьто ни день то новые соты опенсурсы Обнова самой большой модельки от квенов https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 Щас бы дипсику чонить…
- #1189Каждая рандомная группа челов автоматически становится новой LLM RL лабой…
Каждая рандомная группа челов автоматически становится новой LLM RL лабой CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning…