Второй большой открытый релиз за день — MiniMax M3 Как оказалось в модели всего 428 миллиардов параметров, при 23B активных, совсем малютка по сравнению с конкурентами. Главная инновация модели — ещё один вариант sparse attention, MSA (MiniMax Sparse Attention), который заметно эффективнее чем GQA на больших контекстах. __Кто-то будет третим?__ Веса @ai_newz