"Монстрический Tri Dao (соавтор Мамбы) и его группа снова делает хардкорные инженерные вещи, теперь про MoE. SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations __Wentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao__ Статья: https://arxiv.org/abs/2512.14080 Код: https://github.com/Dao-AILab/sonic-moe Ревью: https://arxiviq.substack.com/p/sonicmoe-accelerating-moe-with-io # TL;DR ЧТО сделали: Представили SonicMoE — фреймворк для обучения, заточенный под современные ""мелкозернистые"" (fine-grained) MoE-модели с большим числом экспертов и малой размерностью. Авторы предложили memory-efficient алгоритм обратного прохода, набор ядер под NVIDIA Hopper с перекрытием вычислений и IO, а также стратегию роутинга ""Token Rounding"", устраняющую накладные расходы на паддинг. ПОЧЕМУ это важно: Индустрия (DeepSeek-V3, Qwen3) движется к мелкозернистым MoE ради качества (quality per FLOP). Но такая архитектура упирается в пропускную способность памяти (memory wall) и страдает от неэффективных вычислений из-за невыровненных тайлов GEMM. SonicMoE решает эти проблемы, выдавая ускорение 1.86x на H100 по сравнению с SOTA-бейзлайнами вроде ScatterMoE (https://arxiv.org/abs/2403.08245) и снижая потребление памяти активациями на 45%. Подробнее: https://t.me/gonzo_ML_podcasts/1821"