Интересная работа конца того года. MLP внутри себя выучивает MoE (а также привет гипотезе лотерейного билета!). Но только на реальных данных, которые видимо живут на соответствующем многообразии. Также доказали теорему о невозможности и подтвердили её экспериментальным наблюдением. Интересно. Secret mixtures of experts inside your LLM __Enric Boix-Adsera__ Статья: https://arxiv.org/abs/2512.18452 Код: https://github.com/eboix/secret_moe Ревью: https://arxiviq.substack.com/p/secret-mixtures-of-experts-inside # TL;DR ЧТО сделали: Исследователи разработали теоретический фреймворк и метод эмпирической дистилляции, которые показывают, что плотные слои (MLP) в обученных LLM по своей природе выполняют разреженные вычисления. Эти вычисления можно точно аппроксимировать слоями Mixture of Experts (MoE) с разреженной активацией. Строго доказано, что этот феномен опирается на словарно-разреженную (dictionary-sparse) структуру распределения внутренних активаций нейросети, а не только на саму архитектуру. ПОЧЕМУ это важно: Это открытие даёт механистическое объяснение тому, почему переход от плотных архитектур к MoE настолько эффективен в современных передовых моделях. Доказывая, что стандартные MLP уже обладают скрытой MoE-подобной структурой, работа перекидывает мост между теорией глубокого обучения и эмпирическим дизайном архитектур. Это даёт математически обоснованную причину для масштабирования разреженности и предлагает ресурсоэффективную парадигму для архитектурных экспериментов через послойную дистилляцию. Разреживать тут: https://t.me/gonzo_ML_podcasts/2707
Интересная работа конца того года. MLP внутри себя выучивает MoE (а также…
Из этого канала
- #4913Интересная работа про мультимодальные модели с единым бэкбоном. Если их…
Интересная работа про мультимодальные модели с единым бэкбоном. Если их правильно обучать, то всё работает. И снова очень хорош MoE.
- #4918"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы…
"Интересный инженерный кейс снова от могучего Три Дао и ко. Подробности работы FlashAttention-4.
- #4925Очередная работа про агентов для написания эффективных CUDA ядер. На этот раз…
Очередная работа про агентов для написания эффективных CUDA ядер. На этот раз от китайцев.
- #4902Монстрический Tri Dao и ко предложили спекулятивное декодирование второго…
Монстрический Tri Dao и ко предложили спекулятивное декодирование второго порядка :) В обычном SD быстрая драфт модель генерила токены, а нормальная тяжёлая…
- #4900Говорят, загруженное (в смысле uploaded) существо:…
Говорят, загруженное (в смысле uploaded) существо: https://x.com/michaelandregg/status/2030764512488677736 Взяли коннектом дрозофилы, собрали нейронную модель…