"DeepSeek предложили новую вариацию трансформера Сегодня с вами разбираем свежую громкую статью под названием mHC: Manifold-Constrained Hyper-Connections от DeepSeek. В самой статье ну очень много математики, но мы попробуем разобрать идею на пальцах. Священная корова трансформера – это residual connection (левая схема на скрине). Суть: вместо того, чтобы каждый слой полностью переписывал предыдущий, вход слоя добавляется к его выходу. Тем самым сигнал и градиенты не теряются по дороге, а плавно протекают сквозь глубину сетки без резких искажений. В 2024 ученые из ByteDance предложили расширить residual connections и сделать их многопоточными (схема посередине на скрине). Теперь остаточная информация течет по нескольким ""трубам"", распределяется и перемешивается. Это называется Hyper-Connections, и такой подход немного раширяет топологию, позволяет потокам обмениваться ""мыслями"" и действительно дает какие-то приросты. Но есть большой нюанс. Из-за HC в сети накапливается нестабильность. Матрицы H ничем не ограничены, и когда информация перемешивается, сигнал может резко усилиться или заглушиться. Это все приводит к тому, что HC не масштабируется на крупные модели. Это и есть то, что в своей работе исправили DeepSeek. Они предложили хитрый математический хак, чтобы ограничить матрицу H_res, при этом не навредив эффективности метода. Дело в том, что ее ограничивают не просто значениями, а геометрией. Авторы проецируют H_res на многообразие doubly-stochastic matrices(оно же Birkhoff polytope). Все элементы должны быть неотрицательные, суммы по строкам = 1, суммы по столбцам = 1 (совсем идеально эти свойства не выполняются, но итеративным алгоритмам матрицы к ним приближают). Основное свойство тут в том, что произведение таких матриц тоже doubly-stochastic, а еще у таких матриц среднее значение сигнала сохраняется по глубине. То есть информация продолжает распространяться эффективно, но теперь еще и монотонно и без разрушения скейлинга. H_pre и H_post при этом так жестко ограничивать не надо, потому что они служат только для сбора и разброса сигнала по потокам и не передают сигнал между слоями. Результаты: – Стабильность улучшилась на три порядка. В mHC (DeepSeek) Amax Gain ≤ 1.6, при том что в обычном HC – примерно 3000 – Качество на reasoning-бенчмарках значимо усиливается, и выигрыш не исчезает при росте FLOPs – При этом с оптимизированными ядрами по времени выходит всего +6.7% с четыремя потоками (считай, бесплатно) Из минусов – сложности с инфраструктурой и дорогое масштабирование по количеству потоков. www.alphaxiv.org/abs/2512.24880"
"DeepSeek предложили новую вариацию трансформера Сегодня с вами разбираем…
Из этого канала
- #8590Первый скандал года, друзья 👩❤️👨 Ян Лекун публично назвал Александра Вана…
Первый скандал года, друзья 👩❤️👨 Ян Лекун публично назвал Александра Вана «неопытным» и предсказал, что из Meta будет уходить еще больше сотрудников.
- #8593Илон Маск внезапно заявил, что мы вошли в эру сингулярности Сингулярность в…
Илон Маск внезапно заявил, что мы вошли в эру сингулярности Сингулярность в контексте прогресса – это момент, после которого темпы и характер развития…
- #8594Claude смог вырастить помидор 😐 В стартапе Autoncorp (возможно, вам они…
Claude смог вырастить помидор 😐 В стартапе Autoncorp (возможно, вам они известны: компания хайпанула на продаже автопортретов разных LLM) провели прикольный…
- #8588Чем заняться на январских? Проснулись, улыбнулись, доели салаты и пытаемся не…
Чем заняться на январских? Проснулись, улыбнулись, доели салаты и пытаемся не потерять время на новогодних совсем уж даром.
- #8586Всем новогоднего настроения за наш счет! 31 декабря – самое время подводить…
Всем новогоднего настроения за наш счет! 31 декабря – самое время подводить итоги года.