Для тех, кому нравилась тема про Lottery Ticket Hypothesis… — @gonzo_ML

Для тех, кому нравилась тема про Lottery Ticket Hypothesis (https://t.me/gonzo_ML/21). Взяли кучу моделей одинаковой архитектуры, полные или LoRA, и нашли через SVD небольшое подмножество универсальных весов, которые хорошо работают для всего. The Universal Weight Subspace Hypothesis __Prakhar Kaushik, Shravan Chaudhari, Ankit Vaidya, Rama Chellappa, Alan Yuille__ Статья: https://arxiv.org/abs/2512.05117 Код: https://toshi2k2.github.io/unisub/ Ревью: https://arxiviq.substack.com/p/the-universal-weight-subspace-hypothesis # TL;DR ЧТО сделали: Авторы проанализировали более 1100 глубоких нейросетей — от Vision Transformers до LoRA-адаптеров для LLaMA-3 и Mistral. Они показали, что модели, обученные на совершенно разных задачах, сходятся к общему низкоразмерному подпространству параметров. Применив спектральное разложение к агрегированным весам этих моделей, исследователи выделили «универсальный» набор базисных векторов, который объясняет большую часть дисперсии. Это позволяет обучаться под новые задачи, оптимизируя лишь скалярные коэффициенты, а не полные матрицы весов. ПОЧЕМУ это важно: Результаты говорят о том, что огромная часть параметров в моделях после файнтюнинга избыточна. Это даёт геометрическое объяснение успеху методов PEFT (Parameter-Efficient Fine-Tuning), открывает возможность для экстремального сжатия моделей (до 100 раз по памяти) и мгновенного слияния моделей через простую арифметику без сложного дообучения или эвристического прунинга. Подробнее: https://t.me/gonzo_ML_podcasts/1644

Из этого канала