Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

Тут кстати есть довольно свежии лекции по квантовым алгоритмам…

4 апр. 2025 г.1 968 views61 forwardsОткрыть в Telegram →

Тут кстати есть довольно свежии лекции по квантовым алгоритмам https://www.cs.umd.edu/~amchilds/qa/

Источник

https://t.me/AGI_and_RL/1006

Канал Агенты ИИ | AGI_and_RL · опубликовано 4 апр. 2025 г.

Из этого канала

#1010RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на…
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на двух задачах: Задача поиска товаров (Product Search).
#1011Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What,…
Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models…
#1012Есть такой проектик tiny-grpo от ребят из open-thoughts:…
Есть такой проектик tiny-grpo от ребят из open-thoughts: https://github.com/open-thought/tiny-grpo типа минималистичный имплемент грпо.
#1005Здесь автор пилит UI-шку для экспериментов с обычным рлем…
Здесь автор пилит UI-шку для экспериментов с обычным рлем https://github.com/dvalenciar/ReinforceUI-Studio дока тут https://docs.reinforceui-studio.com/welcome…
#1004Коротенькая выжимка на английском по отличиям обжективов в алгоритмах…
Коротенькая выжимка на английском по отличиям обжективов в алгоритмах REINFORCE, ReMax, RLOO, PPO, GRPO, Dr.