качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был полный цикл тренов в студию в которой можно будет делать модельки в визуальном интерфейсе на своем компе https://github.com/researchim-ai/models-at-home писал в https://t.me/AGI_and_RL/1262 (грпо пока не дам, делается. а вот претрен и сфт можно попробовать самим) можно тут следить https://t.me/researchim
качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был…
Из этого канала
- #1271к нему бы RL подключить...
к нему бы RL подключить...
- #1272ммм в курсоре добавили gpt 5.2 codex пробуем пока что круче опуса 4.5 ничего не…
ммм в курсоре добавили gpt 5.2 codex пробуем пока что круче опуса 4.5 ничего не было. остальное все ну прям сильно слабее
- #1273челы из синкинг машинсов насинкали ливнуть обратно в опенаи…
челы из синкинг машинсов насинкали ливнуть обратно в опенаи https://www.wired.com/story/thinking-machines-lab-cofounders-leave-for-openai/ челы из стартапа…
- #1269а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц…
а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц подробностей насыпали DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via…
- #1268Автор собрал и описал в одном посте все улучшайки GRPO…
Автор собрал и описал в одном посте все улучшайки GRPO https://cameronrwolfe.substack.com/p/grpo-tricks