Первая экспериментальная Ruadapt ризонинг модель:… — @AGI_and_RL

Первая экспериментальная Ruadapt ризонинг модель: RuadaptQwen2.5-14B-R1-distill-preview-v1 Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях. Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях. В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется. Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем: https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5 Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1 GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF

Из этого канала