Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
Вот и 1.5B с RL на русском) Молодцы ребята, RL любят
Из этого канала
- #962Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают.…
Ребята из Open-R1 продолжают рассказывать о том, что сейчас делают. https://huggingface.co/blog/open-r1/update-2 Нагенерили датасетов (трейсы с R1 к решению…
- #963Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку…
Кстати, Сэм Альтман проводил опрос, чего бы опенсурснуть следующим - модельку типа o3-mini (небольшую рассуждалку) или вообще мелкую модельку которую можно…
- #964Qwen2.5-7B-Instruct-Tool-Planning-v0.1 Первый vikhr обученный на Function…
Qwen2.5-7B-Instruct-Tool-Planning-v0.1 Первый vikhr обученный на Function Calling а так же Tool planing! Модель обучена преимущественно на английском и это…
- #960⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO…
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом.
- #958Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли…
Тут потюнили 1.5B модельку и авторы пишут, что на некоторых бенчах смогли выбить результы больше чем у O1-Preview.