HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои модельки, потренить аналог R1-Zero (будет Open R1-Zero), а в конце получить Open R1 https://github.com/huggingface/open-r1 Мы будем использовать техотчет DeepSeek-R1 в качестве руководства, который можно примерно разделить на три основных этапа: * Реплицировать модели R1-Distill путем дистилляции высококачественного корпуса из DeepSeek-R1. * Реплицировать чистый RL-пайплайн, который использовался DeepSeek для создания R1-Zero. Это, вероятно, потребует создания новых крупномасштабных датасетов для математики, рассуждений и кода. * Продемонстрировать возможность перехода от базовой модели к RL-тюнингу через многоэтапное обучение.
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить…
Из этого канала
- #942А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая…
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто) Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B Пишут что 3B…
- #944А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил…
А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе.
- #945"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL…
"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL алгоритм Actor-Critic"" ⌚️ Среда (29 января 2025) 19.00 (по Москве) Actor-Critic…
- #940Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для…
Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для llms, агентам и вот этому всему https://github.com/open-thought/system-2-research…
- #939Куда ни глянь везде RL, реварды, агенты... шьто за время)
Куда ни глянь везде RL, реварды, агенты... шьто за время)