Автор собрал и описал в одном посте все улучшайки GRPO https://cameronrwolfe.substack.com/p/grpo-tricks
Автор собрал и описал в одном посте все улучшайки GRPO…
Из этого канала
- #1269а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц…
а там кстати дипсики R1 статью апдейтнули 4 числа еще 22 -> 86 страниц подробностей насыпали DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via…
- #1270качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был…
качественно обучилось (qwen 2.5 1.5b) это я затаскиваю грпо чтобы у нас был полный цикл тренов в студию в которой можно будет делать модельки в визуальном…
- #1271к нему бы RL подключить...
к нему бы RL подключить...
- #1267С Новым Годом ребятки! Всего только хорошего! 🥰🥳🥰 Чтобы чисто кайфовали весь…
С Новым Годом ребятки! Всего только хорошего! 🥰🥳🥰 Чтобы чисто кайфовали весь следующий год и дальше :)
- #1264Сумбурных домашних апдейтов: - добавлена возможность продолжать трен с…
Сумбурных домашних апдейтов: - добавлена возможность продолжать трен с последнего чекпоинта если он был остановлен; - добавлены датасеты которые можно выкачать…