Qwen 3 Next — очень эффективный 80B-A3B модельки, есть как Instruct так и Reasoning вариант. Модели на порядок быстрее чем Qwen 3 32B, особенно заметно это при больших контекстах. При всём этом Thinking версия обгоняет по бенчам Gemini 2.5 Thinking. Тренировали их менее чем на 10% компьюта потраченного на Qwen 3 32B, используя заметно меньший датасет — 15 триллионов токенов против 36 триллионов оригинального Qwen 3. Это гибридная архитектура — использует как Gated Attention (собственный вариант аттеншна от команды Qwen), так и Gated DeltaNet (вариант Mamba), отсюда и прирост на длинных контекстах. Команда клянётся что это работает лучше чем чистый аттеншн, но нужно ждать независимых бенчей. Кроме этого используют Multi-Token Prediction, что ускоряет спекулятивный декодинг. У команды Qwen какое-то гигантское количество моделей в пайплайне — только за последнюю неделю они выпустили в API Qwen 3 Max (Instruct) и Qwen 3 ASR. Судя по всему готовится скорый релиз Qwen 3 VL (давно пора) и Qwen 3 Omni. Ну и Qwen 4 явно не за горами — иначе на компьюте для Qwen 3 Next так не экономили бы. Веса Блогпост @ai_newz
Qwen 3 Next — очень эффективный 80B-A3B модельки, есть как Instruct так и…
Из этого канала
- #4163Весной 2025 года на рынке массово стали появляться агентные инструменты для…
Весной 2025 года на рынке массово стали появляться агентные инструменты для разработки — Claude Code, Codex и другие тулы выкатывали один за другим.
- #4164Vikhr Borealis - первая русскоязычная открытая audio llm Мы долго и не очень…
Vikhr Borealis - первая русскоязычная открытая audio llm Мы долго и не очень успешно развивали свой tts - Salt, от него исторически осталось довольно много…
- #4165Вертикальные видео в VEO 3 Ну всё, RIP ленты соцсетей. Теперь они будут ещё…
Вертикальные видео в VEO 3 Ну всё, RIP ленты соцсетей. Теперь они будут ещё больше захламлены генеративным слопом, ведь VEO 3 наконец-то научилась генерить…
- #4158Ebsynth v2 Помните такого? Его юзали ещё до всех этих ваших (наших) Img2video и…
Ebsynth v2 Помните такого? Его юзали ещё до всех этих ваших (наших) Img2video и video2video.
- #4157Anthropic, без лишнего шума, добавили полноценный интерпретатор кода в Claude…
Anthropic, без лишнего шума, добавили полноценный интерпретатор кода в Claude Компания продвигает это просто как возможность создавать презентации, эксель…