DeepSeek выкатили под новый год работу про более стабильные hyper-connections (HC, не путать с hyper networks). HC — это расширенный (многоканальный и более широкий) вариант residual connections. Раньше взрывался, а теперь не взрывается. Профит! mHC: Manifold-Constrained Hyper-Connections __Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang__ Статья: https://arxiv.org/abs/2512.24880 Ревью: https://arxiviq.substack.com/p/mhc-manifold-constrained-hyper-connections # TL;DR ЧТО сделали: Авторы из DeepSeek-AI предложили Manifold-Constrained Hyper-Connections (mHC). Это фреймворк, модифицирующий архитектуру Hyper-Connections (гипер-связи) путём проекции матриц смешивания резидуальных потоков на многогранник Биркгофа (множество дважды стохастических матриц). Реализовано это через дифференцируемый алгоритм Синкхорна-Кноппа, встроенный прямо в forward pass. ПОЧЕМУ это важно: Расширение резидуальных потоков увеличивает ёмкость модели, но обычно ломает свойство тождественного отображения (Identity Mapping), критически важное для глубокого обучения. Это ведёт к взрыву сигнала и нестабильности. mHC математически восстанавливает это свойство, позволяя масштабировать ширину сети (а не только глубину) и создавать сложные топологии без проблем с градиентами и без существенного оверхеда по памяти. Подробнее: https://t.me/gonzo_ML_podcasts/1919
DeepSeek выкатили под новый год работу про более стабильные hyper-connections…
Из этого канала
- #4500#2025 Продолжу традицию подбивания результатов. В 2024-м было так. Я снова не…
#2025 Продолжу традицию подбивания результатов. В 2024-м было так. Я снова не тратил слишком много времени на подробный анализ, и попробовал собрать свой…
- #4501DeepSeek, конечно, стал офигенным прорывом, особенно R1, пожалуй. После него…
DeepSeek, конечно, стал офигенным прорывом, особенно R1, пожалуй. После него стало понятно, что гэп между американскими фронтирными компаниями и остальными,…
- #4502Много работ, где к нейросеткам добавляют эволюцию, в частности где LLM…
Много работ, где к нейросеткам добавляют эволюцию, в частности где LLM управляет этой эволюцией.
- #4494Не монолитами едиными достигать соты! Adaptation of Agentic AI Pengcheng Jiang,…
Не монолитами едиными достигать соты! Adaptation of Agentic AI Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang…
- #4493В продолжение темы про Manus. Если вдруг вы не видели эту свежую новость.…
В продолжение темы про Manus. Если вдруг вы не видели эту свежую новость. https://x.com/alexandrwang/status/2005766469771223106