Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO…

12 февр. 2025 г.1 703 views24 forwardsОткрыть в Telegram →

⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL . 🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r

Источник

https://t.me/AGI_and_RL/960

Канал Агенты ИИ | AGI_and_RL · опубликовано 12 февр. 2025 г.

Из этого канала

#961Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
#962Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.…
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают. https://huggingface.co/blog/open-r1/update-2 Нагенерили датасетов (трейсы с R1 к решению…
#963Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку…
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно…
#958Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли…
Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.
#957Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения…
Претренить нужно в INT4 Выпустили статью где задизайнили новый способ обучения в низкой битности: QuEST.