HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить… — @AGI_and_RL

HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои модельки, потренить аналог R1-Zero (будет Open R1-Zero), а в конце получить Open R1 https://github.com/huggingface/open-r1 Мы будем использовать техотчет DeepSeek-R1 в качестве руководства, который можно примерно разделить на три основных этапа: * Реплицировать модели R1-Distill путем дистилляции высококачественного корпуса из DeepSeek-R1. * Реплицировать чистый RL-пайплайн, который использовался DeepSeek для создания R1-Zero. Это, вероятно, потребует создания новых крупномасштабных датасетов для математики, рассуждений и кода. * Продемонстрировать возможность перехода от базовой модели к RL-тюнингу через многоэтапное обучение.

Из этого канала