Бенчмарк новых моделей: Grok, Opus 4.1, Mistral Medium 3.1 Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные. Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter): - Fireworks - Cerebras - Groq Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs). NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать. Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место. Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место. Ваш, @llm_under_hood 🤗
Бенчмарк новых моделей: Grok, Opus 4.1, Mistral Medium 3.1 Elon Musk что-то…
Из этого канала
- #637Какая самая маленькая LLM, которая может управлять бизнес-агентами? Участники…
Какая самая маленькая LLM, которая может управлять бизнес-агентами? Участники сообщества и курса решили выяснить это и допилили SGR демку до состояния, что она…
- #638А вы знаете, что пост про демку бизнес-ассистента с SGR под капотом - это самый…
А вы знаете, что пост про демку бизнес-ассистента с SGR под капотом - это самый тщательно скрываемый секрет нашего коммьюнити? Если верить статистике Telegram,…
- #639"Попробовал в деле Schema Guided Reasoning - перевёл на неё скрипт составления…
"Попробовал в деле Schema Guided Reasoning - перевёл на неё скрипт составления протокола встречи по транскрипту встречи. Результаты: 1.
- #635Меня сегодня спросили - есть ли идеи по поводу следующего Enterprise RAG…
Меня сегодня спросили - есть ли идеи по поводу следующего Enterprise RAG Challenge? Я сказал, что есть две: (1) Сделать ERC, как он был в прошлые два раза…
- #634Красивое демо бизнес-ассистента с SGR на Python Спасибо Виталию (@vitaliiask)…
Красивое демо бизнес-ассистента с SGR на Python Спасибо Виталию (@vitaliiask) за версию агента с красиво оформленной визуализацией! Код работает аналогично…