Qwen3 VL Thinking - TOP3 в бенчмарке! Alibaba Cloud выкатили на днях новые Qwn… — @llm_under_hood

Qwen3 VL Thinking - TOP3 в бенчмарке! __Alibaba Cloud выкатили на днях новые Qwn модели. Я слышал, что они неплохи, но это говорят нынче про каждую модель.__ (1) `Qwen3 Max Instruct` - самая крупная закрытая Qwen модель на 1T+ params - заняла 17 место. Это выше `gpt-5-nano`, но ниже, чем `o1-2024-12-17` (2) `Qwen3-VL-235B-A22B` - самая крупная мультимодальная открытая модель, которая вышла в двух форматах - Instruct (карточка | веса) и Thinking (карточка | веса). `Qwen3-VL-235B-A22B-Instruct` заняла 19ое место, что немного ниже Qwen3 Max Instruct. Это примерно уровень `gpt-5-nano` или `deepseek-r1` но модель при этом работает с картинками! (3) `Qwen3-VL-235B-A22B-Thinking` аналогична Instruct, но умеет думать и заняла третье место! Это самое высокое место, которое когда-либо занимала модель с открытыми весами в моем бенчмарке! Понятно, что модели весом в пол-терабайта мало кто будет запускать на практике - не стоит оно того. Куда эффективнее взять gpt-oss-120B с 7го места или Qwen3-32B с 17 места. Но сам факт попадания открытой мультимодальной модели в TOP3 - это повод для радости от прогресса. Теперь будем ждать таких же моделей, но в более практичном формате. Ваш, @llm_under_hood 🤗 PS: про бенчмарки, включая их двухлетнюю историю, расписано тут

Из этого канала