Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил…

27 янв. 2025 г.1 976 views26 forwardsОткрыть в Telegram →

А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе. График внимание к RL и время. Суперхуман ии будет если вот очень много внимания уделять, получается 🕺 Взял фоты тут: https://x.com/pcastr/status/1822636670220431485

Источник

https://t.me/AGI_and_RL/944

Канал Агенты ИИ | AGI_and_RL · опубликовано 27 янв. 2025 г.

Из этого канала

#945"🚀 @SBERLOGASCI webinar on data science: 👨‍🔬 Алексей Трепецкий ""Введение в RL…
"🚀 @SBERLOGASCI webinar on data science: 👨‍🔬 Алексей Трепецкий ""Введение в RL алгоритм Actor-Critic"" ⌚️ Среда (29 января 2025) 19.00 (по Москве) Actor-Critic…
#947Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало…
Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят.
#948Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl…
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl https://github.com/huggingface/trl/blob/main/docs/source/grpotrainer.md Вообще…
#942А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая…
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто) Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B Пишут что 3B…
#941HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить…
HuggingFace 🤗 хотят повторить модельки семейства DeepSeek-R1 и расшарить пайплайны для воспроизведения Хотят нагенерить данных из R1 и дистильнуть в свои…