Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl https://github.com/huggingface/trl/blob/main/docs/source/grpo_trainer.md Вообще оригинальная статья с этим алгоритмом выходила 5 февраля 2024, но заимплементили ток щас (почему??): DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models https://arxiv.org/abs/2402.03300v3
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl…
Из этого канала
- #949Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот…
Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот так вот верь им теперь.
- #950А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на…
А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.
- #954Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем…
Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на blackbox модели…
- #947Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало…
Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят.
- #945"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL…
"🚀 @SBERLOGASCI webinar on data science: 👨🔬 Алексей Трепецкий ""Введение в RL алгоритм Actor-Critic"" ⌚️ Среда (29 января 2025) 19.00 (по Москве) Actor-Critic…