Второй большой открытый релиз за день — MiniMax M3 Как оказалось в модели всего 428 миллиардов параметров, при 23B активных, совсем малютка по сравнению с конкурентами. Главная инновация модели — ещё один вариант sparse attention, MSA (MiniMax Sparse Attention), который заметно эффективнее чем GQA на больших контекстах. __Кто-то будет третим?__ Веса @ai_newz
Второй большой открытый релиз за день — MiniMax M3 Как оказалось в модели всего…
Из этого канала
- #4612Вышла Kimi K2.7 Code Модель одновременно лучше K2.6 в кодинге и при этом…
Вышла Kimi K2.7 Code Модель одновременно лучше K2.6 в кодинге и при этом использует на 30% меньше токенов для этих результатов.
- #4611"Теперь пользователи могут сами сбрасывать лимиты Codex Вместо глобального…
"Теперь пользователи могут сами сбрасывать лимиты Codex Вместо глобального сброса лимитов, компания теперь будет давать возможность нажать на кнопку ""сбросить…
- #4610Да, это безумные расходы. Но не каждый пользователь так интенсивно использует…
Да, это безумные расходы. Но не каждый пользователь так интенсивно использует подписку на тот же ChatGPT.