Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

Коротенькая выжимка на английском по отличиям обжективов в алгоритмах…

3 апр. 2025 г.2 045 views92 forwardsОткрыть в Telegram →

Коротенькая выжимка на английском по отличиям обжективов в алгоритмах REINFORCE, ReMax, RLOO, PPO, GRPO, Dr. GRPO https://lancelqf.github.io/note/llm_post_training/

Источник

https://t.me/AGI_and_RL/1004

Канал Агенты ИИ | AGI_and_RL · опубликовано 3 апр. 2025 г.

Из этого канала

#1005Здесь автор пилит UI-шку для экспериментов с обычным рлем…
Здесь автор пилит UI-шку для экспериментов с обычным рлем https://github.com/dvalenciar/ReinforceUI-Studio дока тут https://docs.reinforceui-studio.com/welcome…
#1006Тут кстати есть довольно свежии лекции по квантовым алгоритмам…
Тут кстати есть довольно свежии лекции по квантовым алгоритмам https://www.cs.umd.edu/~amchilds/qa/
#1010RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на…
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на двух задачах: Задача поиска товаров (Product Search).
#1003Кстати листик с MCP серверами, думаю пригодятся…
Кстати листик с MCP серверами, думаю пригодятся https://github.com/punkpeye/awesome-mcp-servers
#1002чатгпт сделал нам отличную шпору по рлю. изучаем На английском конечно же…
чатгпт сделал нам отличную шпору по рлю. изучаем На английском конечно же намного лучше получается Агрея, стодание, полеход - каждый должен знать, это база