Первая экспериментальная Ruadapt ризонинг модель: RuadaptQwen2.5-14B-R1-distill-preview-v1 Это адаптация модели deepseek-ai/DeepSeek-R1-Distill-Qwen-14B с SFT шагом после LEP на смеси датасетов kristaller486/Nebo-T1-Russian (все ру, 12-13 т.) и Egor-AI/CoT-XLang (2 т. случайных англ.) Во время SFT шага никаких системных промптов не использовалось, а рассуждения оборачиваются в <think> </think> теги. Модель иногда уходит в повторы, так что вооружаемся repetition_penalty в таких случаях. Так как это ризонинг модель, а под рукой у меня нет датасетов для оценки качества подобных моделей, качество мы пока не оценивали. Если у кого-то есть бенчмарк / датасет на примете - пишите в комментариях. В чем плюс данной модели - ризонинг идет стабильно на русском, без иероглифов в принципе, а скорость генерации русскоязычного текста повышена, так как это Ruadapt. Фидбек как всегда крайне приветстветствуется. Временно (на вечер) поднял Space с данной моделькой, можно потестировать в нем: https://huggingface.co/spaces/RefalMachine/RuadaptQwen2.5 Модель: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1 GGUF: https://huggingface.co/RefalMachine/RuadaptQwen2.5-14B-R1-distill-preview-v1-GGUF
Первая экспериментальная Ruadapt ризонинг модель:…
Из этого канала
- #957Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения…
Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST.
- #958Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли…
Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
- #960⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO…
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом.
- #955Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1…
Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1 https://huggingface.co/blog/open-r1/update-1
- #954Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем…
Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на blackbox модели…