В нвидии не смогли принять что ллмный РЛ ВСЁ и поресечили на тему того, чтобы RL не схлопывал pass@k у базовой модельки. Что предлагают - тюнить 2к шагов и применяют модификации из статьи DAPO (асимметричные клипы 0.8, 1.4) учили с высокой температурой 1.2 с чтобы энтропия не сильно падала (сохранять как можно дольше эксплорейшен у ллмки) + во время трена динамически подбирают сложность задачки (отсекают задачки которые моделька всегда решает и которые не решает во время трена) + использовали KL штраф межд реф и полиси (пишут, что все же KL лучше не убирать, как рекомендуют в некоторых статьях). Тюнили дипсик 1.5 дистил на искусственных логических задачках и матеше + кодовых из уже известных датасетов. В результате пишут что увидели генерализацию на задачку, которой не было в трейне и которую базовая моделька совсем не могла решать. + генерализовалась на графовых задачках на бОльшие размеры графа. Сравнивали базовую модельку с промежуточным и финальным чекпоинтами: - были задачки где pass@k слегка схлопнулся (авторы считают, что моделька уже видело слишком много таких задач и дотрен не помогает) - плато (на промежуточном чекпоенте pass@1 - pass@128 улучшились к промежуточному чекпоинту и на финальном почти не изменились) - pass@k улучшался до конца с рлем. Но правда трен такой много ресурсов требует (пишут что 16к гпу часов на 4 x 8xNVIDIA-H100-80GB для 1.5B) Крч надо учиться делать правильный РЛ (и пробовать скейлить). ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models https://arxiv.org/abs/2505.24864 https://www.alphaxiv.org/ru/overview/2505.24864 PS кстати заходите в https://t.me/researchim там собираем инфу по ИИшечке и проектики делаем (в том числе по генерации логических задачек синтетических)