В нвидии не смогли принять что ллмный РЛ ВСЁ и поресечили на тему того, чтобы RL не схлопывал pass@k у базовой модельки. Что предлагают - тюнить 2к шагов и применяют модификации из статьи DAPO (асимметричные клипы 0.8, 1.4) учили с высокой температурой 1.2 с чтобы энтропия не сильно падала (сохранять как можно дольше эксплорейшен у ллмки) + во время трена динамически подбирают сложность задачки (отсекают задачки которые моделька всегда решает и которые не решает во время трена) + использовали KL штраф межд реф и полиси (пишут, что все же KL лучше не убирать, как рекомендуют в некоторых статьях). Тюнили дипсик 1.5 дистил на искусственных логических задачках и матеше + кодовых из уже известных датасетов. В результате пишут что увидели генерализацию на задачку, которой не было в трейне и которую базовая моделька совсем не могла решать. + генерализовалась на графовых задачках на бОльшие размеры графа. Сравнивали базовую модельку с промежуточным и финальным чекпоинтами: - были задачки где pass@k слегка схлопнулся (авторы считают, что моделька уже видело слишком много таких задач и дотрен не помогает) - плато (на промежуточном чекпоенте pass@1 - pass@128 улучшились к промежуточному чекпоинту и на финальном почти не изменились) - pass@k улучшался до конца с рлем. Но правда трен такой много ресурсов требует (пишут что 16к гпу часов на 4 x 8xNVIDIA-H100-80GB для 1.5B) Крч надо учиться делать правильный РЛ (и пробовать скейлить). ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models https://arxiv.org/abs/2505.24864 https://www.alphaxiv.org/ru/overview/2505.24864 PS кстати заходите в https://t.me/researchim там собираем инфу по ИИшечке и проектики делаем (в том числе по генерации логических задачек синтетических)
В нвидии не смогли принять что ллмный РЛ ВСЁ и поресечили на тему того, чтобы…
Из этого канала
- #1127небольшой чатгптшный ресечик по ии в биологии Прям понравился
небольшой чатгптшный ресечик по ии в биологии Прям понравился
- #1128Channel allows Direct Messages for 🕺🕺🕺 each
Channel allows Direct Messages for 🕺🕺🕺 each
- #1129Кстати, там же курсор до 1.0 версии апдейтнулся. Background агенты, работа с…
Кстати, там же курсор до 1.0 версии апдейтнулся. Background агенты, работа с юпитер ноутбуками, mcpшки, память (пока ничего из этого толком не потестил, но так…
- #1123Прочитал безумно интересную статью о новом алгоритме для перемножения матрицы…
Прочитал безумно интересную статью о новом алгоритме для перемножения матрицы на неё же, но перевёрнутую – транспонированную.
- #1122Чот призадумался с обновой R1 от дипсика, а наступят ли времена когда…
Чот призадумался с обновой R1 от дипсика, а наступят ли времена когда опенсурсные модельки будут обходить закрытые? Что думаете? Условно я NewCompanyName, хочу…