Бенчмарки новых LLM на бизнес задачах. (1) x-ai/grok-4-fast - 18 место, что… — @llm_under_hood

Бенчмарки новых LLM на бизнес задачах. (1) `x-ai/grok-4-fast` - 18 место, что очень хорошо. Особенно впечатляет то, что он решил code задачки на 100% c хорошим упором в reasoning 63%. Compliance у него слабее всего, а business intelligence задачи - средненько. (2) `qwen/qwen3-next-80b-a3b-thinking` - 27 место (3) `qwen/qwen3-next-80b-a3b-instruct` - 41 место У обоих моделей достаточно сильный code и compliance. (4) Недавно вышедший `alibaba/tongyi-deepresearch-30b-a3b` внезапно занял - 28 место, что очень достойно для 30B модели, которая за проход активирует только 3B параметров. Она почти идеально справилась с code задачками (5) `qwen/qwen-plus-2025-07-28` - 34 место, а `qwen/qwen3-coder-plus` - 40 место В принципе, все эти результаты довольно неплохи, но до `qwen/qwen3-32b` (12 место) и `openai/gpt-oss-20b` (20 место) не дотягивает. А если посмотреть с другой стороны… помнит кто-нибудь такие модели как gpt-4o, Mistral или llama? Когда-то я писал про них, что это прорывные модели. А теперь более легкие и умные модели - уже не впечатляют. Вот так - потихоньку - и двигается прогресс. Ваш, @llm_under_hood 🤗 PS: про бенчмарки, включая их двухлетнюю историю, расписано тут

Из этого канала