Для тех, кому нравилась тема про Lottery Ticket Hypothesis (https://t.me/gonzo_ML/21). Взяли кучу моделей одинаковой архитектуры, полные или LoRA, и нашли через SVD небольшое подмножество универсальных весов, которые хорошо работают для всего. The Universal Weight Subspace Hypothesis __Prakhar Kaushik, Shravan Chaudhari, Ankit Vaidya, Rama Chellappa, Alan Yuille__ Статья: https://arxiv.org/abs/2512.05117 Код: https://toshi2k2.github.io/unisub/ Ревью: https://arxiviq.substack.com/p/the-universal-weight-subspace-hypothesis # TL;DR ЧТО сделали: Авторы проанализировали более 1100 глубоких нейросетей — от Vision Transformers до LoRA-адаптеров для LLaMA-3 и Mistral. Они показали, что модели, обученные на совершенно разных задачах, сходятся к общему низкоразмерному подпространству параметров. Применив спектральное разложение к агрегированным весам этих моделей, исследователи выделили «универсальный» набор базисных векторов, который объясняет большую часть дисперсии. Это позволяет обучаться под новые задачи, оптимизируя лишь скалярные коэффициенты, а не полные матрицы весов. ПОЧЕМУ это важно: Результаты говорят о том, что огромная часть параметров в моделях после файнтюнинга избыточна. Это даёт геометрическое объяснение успеху методов PEFT (Parameter-Efficient Fine-Tuning), открывает возможность для экстремального сжатия моделей (до 100 раз по памяти) и мгновенного слияния моделей через простую арифметику без сложного дообучения или эвристического прунинга. Подробнее: https://t.me/gonzo_ML_podcasts/1644
Для тех, кому нравилась тема про Lottery Ticket Hypothesis…
Из этого канала
- #4353"Недавно Гугл выпускал блог пост про SIMA 2, а теперь наконец вышла статья.…
"Недавно Гугл выпускал блог пост про SIMA 2, а теперь наконец вышла статья. SIMA 2: A Generalist Embodied Agent for Virtual Worlds SIMA Team, Google DeepMind…
- #4356Меня периодически спрашивают, как я генерю комиксы. Выношу из комментов, ибо…
Меня периодически спрашивают, как я генерю комиксы. Выношу из комментов, ибо многие могли пропустить.
- #4357Walrus: A Cross-domain Foundation Model for Continuum Dynamics Michael McCabe,…
Walrus: A Cross-domain Foundation Model for Continuum Dynamics Michael McCabe, Payel Mukhopadhyay, Tanya Marwah, Bruno Regaldo-Saint Blancard, Francois Rozet,…
- #4347"Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах?…
"Интересная работа. От алгоритмов ли весь текущий прогресс в трансформерах? Главный вывод — хорошо быть GPU-rich.
- #4345ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq…
ARC Prize подтвердили новую SOTA Gemini 3 Pro Refinement technique от Poetiq 54% на ARC-AGI-2, $31/task https://x.com/i/status/1997743855203148038