Бенчмарки новых LLM на бизнес задачах. (1) `x-ai/grok-4-fast` - 18 место, что очень хорошо. Особенно впечатляет то, что он решил code задачки на 100% c хорошим упором в reasoning 63%. Compliance у него слабее всего, а business intelligence задачи - средненько. (2) `qwen/qwen3-next-80b-a3b-thinking` - 27 место (3) `qwen/qwen3-next-80b-a3b-instruct` - 41 место У обоих моделей достаточно сильный code и compliance. (4) Недавно вышедший `alibaba/tongyi-deepresearch-30b-a3b` внезапно занял - 28 место, что очень достойно для 30B модели, которая за проход активирует только 3B параметров. Она почти идеально справилась с code задачками (5) `qwen/qwen-plus-2025-07-28` - 34 место, а `qwen/qwen3-coder-plus` - 40 место В принципе, все эти результаты довольно неплохи, но до `qwen/qwen3-32b` (12 место) и `openai/gpt-oss-20b` (20 место) не дотягивает. А если посмотреть с другой стороны… помнит кто-нибудь такие модели как gpt-4o, Mistral или llama? Когда-то я писал про них, что это прорывные модели. А теперь более легкие и умные модели - уже не впечатляют. Вот так - потихоньку - и двигается прогресс. Ваш, @llm_under_hood 🤗 PS: про бенчмарки, включая их двухлетнюю историю, расписано тут
Бенчмарки новых LLM на бизнес задачах. (1) x-ai/grok-4-fast - 18 место, что…
Из этого канала
- #664Иллюстрация пайплайна из истории про спасение проекта с LLM под капотом (проект…
Иллюстрация пайплайна из истории про спасение проекта с LLM под капотом (проект про извлечение промышленных данных из разных PDF от разных поставщиков с…
- #665Qwen3 VL Thinking - TOP3 в бенчмарке! Alibaba Cloud выкатили на днях новые Qwn…
Qwen3 VL Thinking - TOP3 в бенчмарке! Alibaba Cloud выкатили на днях новые Qwn модели. Я слышал, что они неплохи, но это говорят нынче про каждую модель.
- #666Завтра и послезавтра проходит TED AI Vienna 2025 Из интересного в программе -…
Завтра и послезавтра проходит TED AI Vienna 2025 Из интересного в программе - OpenAI, Google DeepMind, Microsoft, JetBrains AI и множество нишевых…
- #662Результаты опроса про внедрение Schema-Guided Reasoning в компаниях Всего был…
Результаты опроса про внедрение Schema-Guided Reasoning в компаниях Всего был заполнен 21 опросник (ссылка).
- #661Вот тот самый тайный первый промпт, который отвечает за самую сложную часть…
Вот тот самый тайный первый промпт, который отвечает за самую сложную часть анализа документов в завершенном проекте (см выше).