А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто) Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B Пишут что 3B base норм учится https://github.com/Jiayi-Pan/TinyZero
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая…
Из этого канала
- #944А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил…
А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе.
- #945"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL…
"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL алгоритм Actor-Critic"" ⌚️ Среда (29 января 2025) 19.00 (по Москве) Actor-Critic…
- #947Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало…
Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят.
- #941HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить…
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои…
- #940Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для…
Полезный листик на гитхабе в котором собирают статьи по ризонингам и рлю для llms, агентам и вот этому всему https://github.com/open-thought/system-2-research…