Команда Три Дао снова применяет чёрную магию оптимизации, на этот раз для ускорения тренировки MoE. SonicMoE почти в два раза быстрее лучших открытых кернелов для MoE, при этом используя почти в два раза меньше памяти для хранения активаций. На практике это повышает эффективность тренировки в полтора раза — 64 H100 с SonicMoE тренируют 7B MoE модель с такой же скоростью как 96 H100 с предыдущей лучшей имплементацией. Пейпер Код @ai_newz