DeepSeek выкатили под новый год работу про более стабильные hyper-connections (HC, не путать с hyper networks). HC — это расширенный (многоканальный и более широкий) вариант residual connections. Раньше взрывался, а теперь не взрывается. Профит! mHC: Manifold-Constrained Hyper-Connections __Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang__ Статья: https://arxiv.org/abs/2512.24880 Ревью: https://arxiviq.substack.com/p/mhc-manifold-constrained-hyper-connections # TL;DR ЧТО сделали: Авторы из DeepSeek-AI предложили Manifold-Constrained Hyper-Connections (mHC). Это фреймворк, модифицирующий архитектуру Hyper-Connections (гипер-связи) путём проекции матриц смешивания резидуальных потоков на многогранник Биркгофа (множество дважды стохастических матриц). Реализовано это через дифференцируемый алгоритм Синкхорна-Кноппа, встроенный прямо в forward pass. ПОЧЕМУ это важно: Расширение резидуальных потоков увеличивает ёмкость модели, но обычно ломает свойство тождественного отображения (Identity Mapping), критически важное для глубокого обучения. Это ведёт к взрыву сигнала и нестабильности. mHC математически восстанавливает это свойство, позволяя масштабировать ширину сети (а не только глубину) и создавать сложные топологии без проблем с градиентами и без существенного оверхеда по памяти. Подробнее: https://t.me/gonzo_ML_podcasts/1919