⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL . 🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO…
Из этого канала
- #961Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
- #962Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.…
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают. https://huggingface.co/blog/open-r1/update-2 Нагенерили датасетов (трейсы с R1 к решению…
- #963Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку…
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно…
- #958Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли…
Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
- #957Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения…
Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST.