Есть такой проектик tiny-grpo от ребят из open-thoughts: https://github.com/open-thought/tiny-grpo типа минималистичный имплемент грпо. уже давний получается, ему 3 месяца. Но единственный пример с лламой 1б не запускался хотя бы на 24гб карте. (точнее запускается, но быстро ловит ООМ - нехватка памяти) В нем моделька учится отрабатывать за калькулятор. Вообще цель проекта - это проделывать свои эксперименты с грпо. Поэтому сделал форк с квантизацией и лорой + подставляю модельку от анслота (теперь она должна просто загружаться, без разрешений), чтобы хотя бы запускалось локально. https://github.com/researchim-ai/re-tiny-grpo мб кто-то сам хочет параметры поперебирать, улучшить (но нужна карточка на 24гб) Кстати разные штуки делаем и собираем крутые статьи тут: https://t.me/researchim
Есть такой проектик tiny-grpo от ребят из open-thoughts:…
Из этого канала
- #1013Тут толпа исследователей из разных компаний и универов сделалил большую обзорку…
Тут толпа исследователей из разных компаний и универов сделалил большую обзорку по современным компонентам агентов Обучение, ризонинги, память, world models,…
- #1017В nature решили вспомнить про Dreamer, прикольно…
В nature решили вспомнить про Dreamer, прикольно https://www.nature.com/articles/d41586-025-01019-w https://danijar.com/project/dreamerv3/ Кстати увидел, что…
- #1018Раз уж за дример пошло, то недавно натыкался на реп где чел реимплементнул его…
Раз уж за дример пошло, то недавно натыкался на реп где чел реимплементнул его https://github.com/InexperiencedMe/NaturalDreamer
- #1011Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What,…
Еще обзорок по тест-тайм скейлингам и мультиагентам ? Ни слова больше What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models…
- #1010RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на…
RL с ллмами притянули к рекомендашкам. Тюнили Qwen 2.5 3B. Оптимизировались на двух задачах: Задача поиска товаров (Product Search).