Хм, там Хуавей выложили статью как тренили свою PanguUltraMoE с 718 миллиардов параметров Модельку саму не выкладывают Интересного тут 1. моделька от хуавея 2. тренили они модельку на 6 тысячах хуавеевских чипах Ascend NPU Много про оптимизации под эти чипы Моделька по бенчам перформит ~ DeepSeek R1 Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs https://arxiv.org/abs/2505.04519 https://www.alphaxiv.org/ru/overview/2505.04519 Есть вот такой пост про архитектуру Ascend NPU чипов еще 2021 года https://forum.huawei.com/enterprise/intl/en/thread/what-is-ascend-chips/667245530885013505