Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот так вот верь им теперь. Думал RL придумали свой и вон какие крутые https://api-docs.deepseek.com/
Ребята, я зашел на сайт дипсиков и они и правда упоминают в коде OpenAI 😱😱😱 Вот…
Из этого канала
- #950А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на…
А вот есть у нас SFT (Supervised fine-tuning) и RL (reinforcement learning) на посттрейне ллмов.
- #954Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем…
Инженер LLM (Оптимизация и RL Alignment) Стартап в области безопасности ИИ Чем предстоит заниматься: Дообучение и Оценка Sota llm, аттаки на blackbox модели…
- #955Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1…
Ребятки из HF выкатили небольшой постик по текущему прогрессу с Open-R1 https://huggingface.co/blog/open-r1/update-1
- #948Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl…
Самый интересный и популярный алгоритм для тренировки ллмок GRPO заехал в trl https://github.com/huggingface/trl/blob/main/docs/source/grpotrainer.md Вообще…
- #947Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало…
Мнение DeepSeek просто респект за то, что могут вот так шуму навести. Мне стало казаться, что никто и не собирается уже. Основной кайф что многое опенсорсят.