третий апдейт по Open R1 https://huggingface.co/blog/open-r1/update-3 Чем занимались Созданием CodeForces-CoTs: датасетом, содержащим почти 100 тысяч высококачественных примеров, полученных в результате дистилляции R1 для генерации решений на C++ и Python. https://huggingface.co/datasets/open-r1/codeforces - задачи https://huggingface.co/datasets/open-r1/codeforces-cots - решения с трейсами от R1 IOI-бенчмарком: новым набором сложных задач с Международной олимпиады по информатике 2024 года https://huggingface.co/datasets/open-r1/ioi задачи IOI’2020 - IOI’2024 https://huggingface.co/datasets/open-r1/ioi-cots - трейсы решений с R1 (еще много дополнительного в статье) OlympicCoder: двумя дообученными моделями кода (7B и 32B), которые превосходят закрытые передовые модели, такие как Claude 3.7 Sonnet, при решении задач IOI https://huggingface.co/open-r1/OlympicCoder-7B https://huggingface.co/open-r1/OlympicCoder-32B Уже было бы прикольно увидеть сам Open R1, но ребята еще только учатся тренить ризонинг модельки и пишут в посте подробности! В том числе рассказывают что выяснили пока делали OlympicCoder PS собираем полезное по ллмам тут https://t.me/researchim
третий апдейт по Open R1 https://huggingface.co/blog/open-r1/update-3 Чем…
Из этого канала
- #995"Тренили OlympicCoder со следующими параметрами: Базовая модель: Qwen2.5 Coder…
"Тренили OlympicCoder со следующими параметрами: Базовая модель: Qwen2.5 Coder Instruct 7B and 32B количество эпох: 10 батч сайз: 128 Learning rate: 4e-5…
- #999Там кстати большое обновление GRPO вышло в trl завезли кучу оптимизаций из…
Там кстати большое обновление GRPO вышло в trl завезли кучу оптимизаций из недавних статей + мультинод трейнинг…
- #1000Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было…
Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144) Reinforcement Learning: A Comprehensive Overview…
- #993ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio.…
ЛЛМам пора на завод. Там сделали енвайронмент-бенч для ллмок из игры Factorio. Я не специалист по факторио, но в целом всегда казалось что тут можно тестить и…
- #988Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото…
Towards General-Purpose Model-Free Reinforcement Learning Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а…