Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая…

25 янв. 2025 г.2 167 views28 forwardsОткрыть в Telegram →

А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто) Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B Пишут что 3B base норм учится https://github.com/Jiayi-Pan/TinyZero

Источник

https://t.me/AGI_and_RL/942

Канал Агенты ИИ | AGI_and_RL · опубликовано 25 янв. 2025 г.

Из этого канала

#944А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил…
А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе.
#945"🚀 @SBERLOGASCI webinar on data science: 👨‍🔬 Алексей Трепецкий ""Введение в RL…
"🚀 @SBERLOGASCI webinar on data science: 👨‍🔬 Алексей Трепецкий ""Введение в RL алгоритм Actor-Critic"" ⌚️ Среда (29 января 2025) 19.00 (по Москве) Actor-Critic…
#947Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало…
Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят.
#941HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить…
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои…
#940Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для…
Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для llms, агентам и вот этому всему https://github.com/open-thought/system-2-research…