Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models https://arxiv.org/abs/2503.24235 A Comprehensive Survey on Multi-Agent Cooperative Decision-Making: Scenarios, Approaches, Challenges and Perspectives https://arxiv.org/abs/2503.13415
Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What,…
Из этого канала
- #1012Есть такой проектик tiny-grpo от ребят из open-thoughts:…
Есть такой проектик tiny-grpo от ребят из open-thoughts: https://github.com/open-thought/tiny-grpo типа минималистичный имплемент грпо.
- #1013Тут толпа исследователей из разных компаний и универов сделалил большую обзорку…
Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов Обучение, ризонинги, память, world models,…
- #1017В nature решили вспомнить про Dreamer, прикольно…
В nature решили вспомнить про Dreamer, прикольно https://www.nature.com/articles/d41586-025-01019-w https://danijar.com/project/dreamerv3/ Кстати увидел, что…
- #1010RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на…
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на двух задачах: Задача поиска товаров (Product Search).
- #1006Тут кстати есть довольно свежии лекции по квантовым алгоритмам…
Тут кстати есть довольно свежии лекции по квантовым алгоритмам https://www.cs.umd.edu/~amchilds/qa/