Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

Тут автор рассказывает про свои эксперименты с ллм и GRPO для улучшения…

27 мар. 2025 г.2 643 views34 forwardsОткрыть в Telegram →

Тут автор рассказывает про свои эксперименты с ллм и GRPO для улучшения алгоритмов сортировки https://hrishbh.com/ai-as-algorithm-designer-teaching-llms-to-improve-sorting-through-trial-and-error-in-grpo/ PS подобные штуки мы собираем в https://t.me/researchim

Источник

https://t.me/AGI_and_RL/1001

Канал Агенты ИИ | AGI_and_RL · опубликовано 27 мар. 2025 г.

Из этого канала

#1002чатгпт сделал нам отличную шпору по рлю. изучаем На английском конечно же…
чатгпт сделал нам отличную шпору по рлю. изучаем На английском конечно же намного лучше получается Агрея, стодание, полеход - каждый должен знать, это база
#1003Кстати листик с MCP серверами, думаю пригодятся…
Кстати листик с MCP серверами, думаю пригодятся https://github.com/punkpeye/awesome-mcp-servers
#1004Коротенькая выжимка на английском по отличиям обжективов в алгоритмах…
Коротенькая выжимка на английском по отличиям обжективов в алгоритмах REINFORCE, ReMax, RLOO, PPO, GRPO, Dr.
#1000Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было…
Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144) Reinforcement Learning: A Comprehensive Overview…
#999Там кстати большое обновление GRPO вышло в trl завезли кучу оптимизаций из…
Там кстати большое обновление GRPO вышло в trl завезли кучу оптимизаций из недавних статей + мультинод трейнинг…