Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий с множественными наградами. GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization __Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov__ Статья: https://arxiv.org/abs/2601.05242 Код: https://github.com/NVlabs/GDPO Ревью: https://arxiviq.substack.com/p/gdpo-group-reward-decoupled-normalization # TL;DR ЧТО сделали: Выявили критический недостаток в популярном методе GRPO (https://arxiv.org/abs/2402.03300) при обучении с несколькими наградами. Авторы из NVIDIA предлагают GDPO — метод, меняющий порядок действий: вместо суммирования наград перед нормализацией, GDPO сначала нормализует каждый сигнал (например, за корректность, формат, краткость) независимо внутри группы, и только потом агрегирует их. ПОЧЕМУ это важно: Это устраняет «коллапс сигнала награды», когда разные комбинации сырых баллов дают одинаковые оценки преимущества (advantage), из-за чего модель перестаёт различать качество выполнения отдельных подзадач. GDPO позволяет стабильно обучать модели (уровня DeepSeek-R1 или Qwen2.5) в сложных сценариях, требующих одновременного соблюдения жесткого формата, лимита токенов и правильности рассуждений — там, где обычный GRPO часто сходится к субоптимальным решениям. Подробнее: https://t.me/gonzo_ML_podcasts/2058
Исследователи из NVIDIA предложили замену GRPO на новый GDPO, лучше работающий…
Из этого канала
- #4558Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов…
Красивая история про позиционки. Подходы с отсутствием позиционных эмбеддингов (NoPE) уже были, но они выучиваются неидеально, сходимость таких моделей…
- #4562Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть…
Любопытная смена подхода для работы с большим контекстом. Не пытаемся съесть целиком, а работаем с ним, вызывая код для внешней обработки, и агрегируем…
- #4566Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5…
Archivara нашли более эффективный метод умножения циркулянтных матриц 5×5 (эквивалентно 5-point cyclic convolution) с помощью 5.2 Pro и Opus 4.5.
- #4551Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists…
Использование рубрик для RL обучения AI-Scientist'ов Training AI Co-Scientists Using Rubric Rewards Shashwat Goel, Rishi Hazra, Dulhan Jayalath, Timon Willi,…
- #4550Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target,…
Ещё из интересного, Гугл совместно с екоммерсом в лице Shopify, Etsy, Target, Walmart и Wayfair анонсировали протокол UCP: Universal Commerce Protocol.