Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144) Reinforcement Learning: A Comprehensive Overview https://arxiv.org/abs/2412.05265v2
Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было…
Из этого канала
- #1001Тут автор рассказывает про свои эксперименты с ллм и GRPO для улучшения…
Тут автор рассказывает про свои эксперименты с ллм и GRPO для улучшения алгоритмов сортировки…
- #1002чатгпт сделал нам отличную шпору по рлю. изучаем На английском конечно же…
чатгпт сделал нам отличную шпору по рлю. изучаем На английском конечно же намного лучше получается Агрея, стодание, полеход - каждый должен знать, это база
- #1003Кстати листик с MCP серверами, думаю пригодятся…
Кстати листик с MCP серверами, думаю пригодятся https://github.com/punkpeye/awesome-mcp-servers
- #999Там кстати большое обновление GRPO вышло в trl завезли кучу оптимизаций из…
Там кстати большое обновление GRPO вышло в trl завезли кучу оптимизаций из недавних статей + мультинод трейнинг…
- #995"Тренили OlympicCoder со следующими параметрами: Базовая модель: Qwen2.5 Coder…
"Тренили OlympicCoder со следующими параметрами: Базовая модель: Qwen2.5 Coder Instruct 7B and 32B количество эпох: 10 батч сайз: 128 Learning rate: 4e-5…