Qwen 3 Next — очень эффективный 80B-A3B модельки, есть как Instruct так и Reasoning вариант. Модели на порядок быстрее чем Qwen 3 32B, особенно заметно это при больших контекстах. При всём этом Thinking версия обгоняет по бенчам Gemini 2.5 Thinking. Тренировали их менее чем на 10% компьюта потраченного на Qwen 3 32B, используя заметно меньший датасет — 15 триллионов токенов против 36 триллионов оригинального Qwen 3. Это гибридная архитектура — использует как Gated Attention (собственный вариант аттеншна от команды Qwen), так и Gated DeltaNet (вариант Mamba), отсюда и прирост на длинных контекстах. Команда клянётся что это работает лучше чем чистый аттеншн, но нужно ждать независимых бенчей. Кроме этого используют Multi-Token Prediction, что ускоряет спекулятивный декодинг. У команды Qwen какое-то гигантское количество моделей в пайплайне — только за последнюю неделю они выпустили в API Qwen 3 Max (Instruct) и Qwen 3 ASR. Судя по всему готовится скорый релиз Qwen 3 VL (давно пора) и Qwen 3 Omni. Ну и Qwen 4 явно не за горами — иначе на компьюте для Qwen 3 Next так не экономили бы. Веса Блогпост @ai_newz