Qwen 3 — открытые гибридные ризонеры Идёт в размерах на все случаи жизни — от миниатюрной 0.6B, до огромного 235B-A22B MoE, которая обгоняет o3-mini и очень хорошо себя показывает против Gemini 2.5 Pro. Все модели — SOTA в своих весовых категориях. Особенно хочу отметить 30B-3A MoE модель — она бьёт вышедшую полтора месяца назад QwQ 32B, при в 10 раз меньшем количестве активных параметров. Она всё ещё слегка отстаёт от Qwen 3 32B, но в разы быстрее. Все эти модели — гибридные, то есть они могут вести себя и как обычная модель и как ризонер, что сильно увеличивает гибкость использования - нужно только вставить тег `/no_think`. Такой фичей могут похвастаться ещё только Claude 3.7 и Gemini 2.5 Flash. А ещё разработчики заявляют, что у Qwen 3 сильно улучшили тул-юз, хотя данных бенчей особо не приводят, в любом случае мы всё и так узнаем через пару дней. Но есть и ложка дёгтя — модели не мультимодальные, а мультимодальные квены обычно релизятся через 3-4 месяца 😢. Модели тренировали на 36 триллионах токенов из 119 языков, том числе беларуского, русского и украинского. Если датасет для всех моделей одинаковый, то 0,6B тренировали на 60 тысяч токенов на один параметр (привет Шиншилле). Интересно как она себя будет вести при такой плотности. Веса выложили под Apache 2.0 — то есть делать с ними можно всё что угодно. Попробовать модели можно на qwen.ai. Веса Блогпост @ai_newz
Qwen 3 — открытые гибридные ризонеры Идёт в размерах на все случаи жизни — от…
Из этого канала
- #3870Есть такой подреддит r/ChangeMyView: его правило простое - автор делится…
Есть такой подреддит r/ChangeMyView: его правило простое - автор делится твёрдым убеждением, а комментаторы стараются аргументированно изменить его точку…
- #3871На Llama Con показали официальное API Llama Сразу на запуске будет доступен…
На Llama Con показали официальное API Llama Сразу на запуске будет доступен неплохой базовый набор фич — мультимодальные API, tool calling, structured outputs.
- #3872Ну что, готовы к новому релизу от DeepSeek? На 🤗 только что появились веса…
Ну что, готовы к новому релизу от DeepSeek? На 🤗 только что появились веса DeepSeek Prover V2 671B — новой модели для доказательства теорем и математики.
- #3862Видео дайджест Я не знаю, какая муха укусила китайцев, но те всей толпой опять…
Видео дайджест Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек.
- #3860Нейродайджест за неделю (#66) OpenAI - API для Image Generation через GPT — на…
Нейродайджест за неделю (#66) OpenAI - API для Image Generation через GPT — на высоких настройках качества очень дорого, но конкурентов по функционалу нет.