Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для llms, агентам и вот этому всему https://github.com/open-thought/system-2-research а в телеге собираем полезное в https://t.me/researchim
Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для…
Из этого канала
- #941HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить…
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои…
- #942А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая…
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто) Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B Пишут что 3B…
- #944А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил…
А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе.
- #939Куда ни глянь везде RL, реварды, агенты... шьто за время)
Куда ни глянь везде RL, реварды, агенты... шьто за время)
- #937Агенты OpenAI Нам показывают Operator:…
Агенты OpenAI Нам показывают Operator: https://openai.com/index/introducing-operator/ агент для работы в вебе на базе новой модельки Computer-Using Agent - это…