"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL алгоритм Actor-Critic"" ⌚️ Среда (29 января 2025) 19.00 (по Москве) Actor-Critic — популярная концепция в обучении с подкреплением, позволяющая увеличить эффективность получаемых данных и сократить время обучения политике, основанная на объединении policy и value подходов. На семинаре мы подробно разберем, как устроен метод Actor-Critic, зачем необходимо совместное обучение политики и функции ценности и как это улучшает алгоритм REINFORCE. Zoom link will be in @sberlogabig just before start. Video records: https://www.youtube.com/c/SciBerloga - subscribe !"
"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL…
Из этого канала
- #947Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало…
Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят.
- #948Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl…
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl https://github.com/huggingface/trl/blob/main/docs/source/grpotrainer.md Вообще…
- #949Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот…
Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот так вот верь им теперь.
- #944А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил…
А Дэвид Сильвер (лидил в DeepMind ресеч по AlphaGo, AlphaZero и ко-лидил AlphaStar) кстати показывал вот такие слайдики на RL Conference в августе.
- #942А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая…
А тут еще ребята делают модельку с ризонингом по типу R1-Zero (т.е. трененая RLем чисто) Делают поверх небольших Qwen2.5 моделек 0.5B, 1.5B, 3B Пишут что 3B…