ллмный RL апдейтит лишь 5%-30% весов и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель Причем - Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются. - Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети - если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте - большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств. - SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе - на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT. Так понял. Reinforcement Learning Finetunes Small Subnetworks in Large Language Models https://arxiv.org/abs/2505.11711 https://www.alphaxiv.org/ru/overview/2505.11711 PS собираем всякое крутое по ИИ и проектики делаем в https://t.me/researchim