А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе. График внимание к RL и время. Суперхуман ии будет если вот очень много внимания уделять, получается 🕺 Взял фоты тут: https://x.com/pcastr/status/1822636670220431485
А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил…
Из этого канала
- #945"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL…
"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL алгоритм Actor-Critic"" ⌚️ Среда (29 января 2025) 19.00 (по Москве) Actor-Critic…
- #947Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало…
Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят.
- #948Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl…
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl https://github.com/huggingface/trl/blob/main/docs/source/grpotrainer.md Вообще…
- #942А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая…
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто) Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B Пишут что 3B…
- #941HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить…
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои…