а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц подробностей насыпали DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2501.12948v2 PS собираем статьи и проекты делаем в https://t.me/researchim
а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц…
Из этого канала
- #1270качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был…
качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был полный цикл тренов в студию в которой можно будет делать модельки в визуальном…
- #1271к нему бы RL подключить...
к нему бы RL подключить...
- #1272ммм в курсоре добавили gpt 5.2 codex пробуем пока что круче опуса 4.5 ничего не…
ммм в курсоре добавили gpt 5.2 codex пробуем пока что круче опуса 4.5 ничего не было. остальное все ну прям сильно слабее
- #1268Автор собрал и описал в одном посте все улучшайки GRPO…
Автор собрал и описал в одном посте все улучшайки GRPO https://cameronrwolfe.substack.com/p/grpo-tricks
- #1267С Новым Годом ребятки! Всего только хорошего! 🥰🥳🥰 Чтобы чисто кайфовали весь…
С Новым Годом ребятки! Всего только хорошего! 🥰🥳🥰 Чтобы чисто кайфовали весь следующий год и дальше :)