Интересная работа конца того года. MLP внутри себя выучивает MoE (а также… — @gonzo_ML

Интересная работа конца того года. MLP внутри себя выучивает MoE (а также привет гипотезе лотерейного билета!). Но только на реальных данных, которые видимо живут на соответствующем многообразии. Также доказали теорему о невозможности и подтвердили её экспериментальным наблюдением. Интересно. Secret mixtures of experts inside your LLM __Enric Boix-Adsera__ Статья: https://arxiv.org/abs/2512.18452 Код: https://github.com/eboix/secret_moe Ревью: https://arxiviq.substack.com/p/secret-mixtures-of-experts-inside # TL;DR ЧТО сделали: Исследователи разработали теоретический фреймворк и метод эмпирической дистилляции, которые показывают, что плотные слои (MLP) в обученных LLM по своей природе выполняют разреженные вычисления. Эти вычисления можно точно аппроксимировать слоями Mixture of Experts (MoE) с разреженной активацией. Строго доказано, что этот феномен опирается на словарно-разреженную (dictionary-sparse) структуру распределения внутренних активаций нейросети, а не только на саму архитектуру. ПОЧЕМУ это важно: Это открытие даёт механистическое объяснение тому, почему переход от плотных архитектур к MoE настолько эффективен в современных передовых моделях. Доказывая, что стандартные MLP уже обладают скрытой MoE-подобной структурой, работа перекидывает мост между теорией глубокого обучения и эмпирическим дизайном архитектур. Это даёт математически обоснованную причину для масштабирования разреженности и предлагает ресурсоэффективную парадигму для архитектурных экспериментов через послойную дистилляцию. Разреживать тут: https://t.me/gonzo_ML_podcasts/2707

Из этого канала