Куда ни глянь везде RL, реварды, агенты... шьто за время)
Куда ни глянь везде RL, реварды, агенты... шьто за время)
Из этого канала
- #940Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для…
Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для llms, агентам и вот этому всему https://github.com/open-thought/system-2-research…
- #941HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить…
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои…
- #942А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая…
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто) Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B Пишут что 3B…
- #937Агенты OpenAI Нам показывают Operator:…
Агенты OpenAI Нам показывают Operator: https://openai.com/index/introducing-operator/ агент для работы в вебе на базе новой модельки Computer-Using Agent - это…
- #936Salt Мы начали собирать эту модель в августе, в конце августа получили первый…
Salt Мы начали собирать эту модель в августе, в конце августа получили первый прототип, а потом стало выходить миллион вариантов вида: а давайте whisper для…