Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий… — @gonzo_ML

Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий с множественными наградами. GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization __Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov__ Статья: https://arxiv.org/abs/2601.05242 Код: https://github.com/NVlabs/GDPO Ревью: https://arxiviq.substack.com/p/gdpo-group-reward-decoupled-normalization # TL;DR ЧТО сделали: Выявили критический недостаток в популярном методе GRPO (https://arxiv.org/abs/2402.03300) при обучении с несколькими наградами. Авторы из NVIDIA предлагают GDPO — метод, меняющий порядок действий: вместо суммирования наград перед нормализацией, GDPO сначала нормализует каждый сигнал (например, за корректность, формат, краткость) независимо внутри группы, и только потом агрегирует их. ПОЧЕМУ это важно: Это устраняет «коллапс сигнала награды», когда разные комбинации сырых баллов дают одинаковые оценки преимущества (advantage), из-за чего модель перестаёт различать качество выполнения отдельных подзадач. GDPO позволяет стабильно обучать модели (уровня DeepSeek-R1 или Qwen2.5) в сложных сценариях, требующих одновременного соблюдения жесткого формата, лимита токенов и правильности рассуждений — там, где обычный GRPO часто сходится к субоптимальным решениям. Подробнее: https://t.me/gonzo_ML_podcasts/2058

Из этого канала