Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

Там кстати большое обновление GRPO вышло в trl завезли кучу оптимизаций из…

25 мар. 2025 г.2 480 views26 forwardsОткрыть в Telegram →

Там кстати большое обновление GRPO вышло в trl завезли кучу оптимизаций из недавних статей + мультинод трейнинг https://github.com/huggingface/trl/releases/tag/v0.16.0

Источник

https://t.me/AGI_and_RL/999

Канал Агенты ИИ | AGI_and_RL · опубликовано 25 мар. 2025 г.

Из этого канала

#1000Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было…
Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144) Reinforcement Learning: A Comprehensive Overview…
#1001Тут автор рассказывает про свои эксперименты с ллм и GRPO для улучшения…
Тут автор рассказывает про свои эксперименты с ллм и GRPO для улучшения алгоритмов сортировки…
#1002чатгпт сделал нам отличную шпору по рлю. изучаем На английском конечно же…
чатгпт сделал нам отличную шпору по рлю. изучаем На английском конечно же намного лучше получается Агрея, стодание, полеход - каждый должен знать, это база
#995"Тренили OlympicCoder со следующими параметрами: Базовая модель: Qwen2.5 Coder…
"Тренили OlympicCoder со следующими параметрами: Базовая модель: Qwen2.5 Coder Instruct 7B and 32B количество эпох: 10 батч сайз: 128 Learning rate: 4e-5…
#994третий апдейт по Open R1 https://huggingface.co/blog/open-r1/update-3 Чем…
третий апдейт по Open R1 https://huggingface.co/blog/open-r1/update-3 Чем занимались Созданием CodeForces-CoTs: датасетом, содержащим почти 100 тысяч…