ллмный RL апдейтит лишь 5%-30% весов и эти веса образуют подсеть, которую можно тюнить рлем саму по себе (заморозив остальные веса) и после тюна она будет почти такой же как если тюнить всю модель Причем - Каждый слой и каждая матрица (Q, K, V, FFN) получает одинаково разреженные, но при этом почти полноранговые обновления, параметры LayerNorm практически не трогаются. - Для одной и той же базовой модели «активные» подсети, полученные при разных сидax, датасетax и даже разных RL-алгоритмах, перекрываются гораздо сильнее случайного, а значит существует частично переносимая структура подсети - если потюнить эти регионы с замороженными остальными весами, то можно даже пару процентов докинуть на тесте - большая разреженность сохраняется на 7 алгоритмах (PPO, GRPO, ORPO, KTO, DPO, SimPO, PRIME) и 10 моделях разных семейств. - SFT на тех же данных до RLя особо картину не меняет, разреженность ~ та же на RLе - на примере PRIME алгоритма показали что со временем разреженность падает, т.е. апдейтится все больше весов Авторы связывают основную причину большой разреженности с тюнингом/рлем на in-distribution данных. Например DPO на out-of-distribution показало что тюнится 94% весов, ка и с SFT. Так понял. Reinforcement Learning Finetunes Small Subnetworks in Large Language Models https://arxiv.org/abs/2505.11711 https://www.alphaxiv.org/ru/overview/2505.11711 PS собираем всякое крутое по ИИ и проектики делаем в https://t.me/researchim
ллмный RL апдейтит лишь 5%-30% весов и эти веса образуют подсеть, которую можно…
Из этого канала
- #1114ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения.…
ToneSpeak - первый русскоязычный датасет с описанием акецента и настроения. Сгенерили через openai api, получилось очень приятно, пользуйтесь! Huggingface
- #1115Ну что как вам клод 4? Чот у меня пока неоднозначненько. Пока тыкаю сонет в…
Ну что как вам клод 4? Чот у меня пока неоднозначненько. Пока тыкаю сонет в курсоре, но блин он реально часто делает что-то не то.
- #1116Написали статью про претрен LLM в MXFP4. Кернелы будут на следующей неделе,…
Написали статью про претрен LLM в MXFP4. Кернелы будут на следующей неделе, пока от текста кайфуйте. https://huggingface.co/papers/2505.14669
- #1109Всем привет! Рад сообщить о нашем новом релизе RuadaptQwen3-32B-Instruct 🎉. Это…
Всем привет! Рад сообщить о нашем новом релизе RuadaptQwen3-32B-Instruct 🎉. Это адаптированная версия Qwen3-32B, которая также является гибридным ризонером с…
- #1108https://huggingface.co/mistralai/Devstral-Small-2505 Новая кодовая агентная…
https://huggingface.co/mistralai/Devstral-Small-2505 Новая кодовая агентная открытая моделька от мистраля.