Агенты ИИ | AGI_and_RL@AGI_and_RL· 5 852 subs

а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц…

8 янв. 2026 г.2 613 views32 forwardsОткрыть в Telegram →

а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц подробностей насыпали DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning https://arxiv.org/abs/2501.12948v2 PS собираем статьи и проекты делаем в https://t.me/researchim

Источник

https://t.me/AGI_and_RL/1269

Канал Агенты ИИ | AGI_and_RL · опубликовано 8 янв. 2026 г.

Из этого канала

#1270качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был…
качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был полный цикл тренов в студию в которой можно будет делать модельки в визуальном…
#1271к нему бы RL подключить...
к нему бы RL подключить...
#1272ммм в курсоре добавили gpt 5.2 codex пробуем пока что круче опуса 4.5 ничего не…
ммм в курсоре добавили gpt 5.2 codex пробуем пока что круче опуса 4.5 ничего не было. остальное все ну прям сильно слабее
#1268Автор собрал и описал в одном посте все улучшайки GRPO…
Автор собрал и описал в одном посте все улучшайки GRPO https://cameronrwolfe.substack.com/p/grpo-tricks
#1267С Новым Годом ребятки! Всего только хорошего! 🥰🥳🥰 Чтобы чисто кайфовали весь…
С Новым Годом ребятки! Всего только хорошего! 🥰🥳🥰 Чтобы чисто кайфовали весь следующий год и дальше :)