Qwen3 VL Thinking - TOP3 в бенчмарке! __Alibaba Cloud выкатили на днях новые Qwn модели. Я слышал, что они неплохи, но это говорят нынче про каждую модель.__ (1) `Qwen3 Max Instruct` - самая крупная закрытая Qwen модель на 1T+ params - заняла 17 место. Это выше `gpt-5-nano`, но ниже, чем `o1-2024-12-17` (2) `Qwen3-VL-235B-A22B` - самая крупная мультимодальная открытая модель, которая вышла в двух форматах - Instruct (карточка | веса) и Thinking (карточка | веса). `Qwen3-VL-235B-A22B-Instruct` заняла 19ое место, что немного ниже Qwen3 Max Instruct. Это примерно уровень `gpt-5-nano` или `deepseek-r1` но модель при этом работает с картинками! (3) `Qwen3-VL-235B-A22B-Thinking` аналогична Instruct, но умеет думать и заняла третье место! Это самое высокое место, которое когда-либо занимала модель с открытыми весами в моем бенчмарке! Понятно, что модели весом в пол-терабайта мало кто будет запускать на практике - не стоит оно того. Куда эффективнее взять gpt-oss-120B с 7го места или Qwen3-32B с 17 места. Но сам факт попадания открытой мультимодальной модели в TOP3 - это повод для радости от прогресса. Теперь будем ждать таких же моделей, но в более практичном формате. Ваш, @llm_under_hood 🤗 PS: про бенчмарки, включая их двухлетнюю историю, расписано тут
Qwen3 VL Thinking - TOP3 в бенчмарке! Alibaba Cloud выкатили на днях новые Qwn…
Из этого канала
- #666Завтра и послезавтра проходит TED AI Vienna 2025 Из интересного в программе -…
Завтра и послезавтра проходит TED AI Vienna 2025 Из интересного в программе - OpenAI, Google DeepMind, Microsoft, JetBrains AI и множество нишевых…
- #667Кто работает на стыке медицины, биотеха и AI? Есть ли среди нас люди, стартапы…
Кто работает на стыке медицины, биотеха и AI? Есть ли среди нас люди, стартапы или команды, которые занимаются проектами с применением AI, LLM или CV в…
- #668OpenAI говорит, что SGR - тупиковый путь Точнее, сегодня это заявил…
OpenAI говорит, что SGR - тупиковый путь Точнее, сегодня это заявил исследователь из OpenAI Lukasz Kaiser, один из авторов знаменитой статьи о трансформерах…
- #664Иллюстрация пайплайна из истории про спасение проекта с LLM под капотом (проект…
Иллюстрация пайплайна из истории про спасение проекта с LLM под капотом (проект про извлечение промышленных данных из разных PDF от разных поставщиков с…
- #663Бенчмарки новых LLM на бизнес задачах. (1) x-ai/grok-4-fast - 18 место, что…
Бенчмарки новых LLM на бизнес задачах. (1) `x-ai/grok-4-fast` - 18 место, что очень хорошо.