Новые бенчмарки LLM на бизнес задачах в SGR режиме (1) gpt-5-chat-latest - это… — @llm_under_hood

Новые бенчмарки LLM на бизнес задачах в SGR режиме (1) gpt-5-chat-latest - это урезанный снапшот быстрой модели, которая работает под капотом в ChatGPT. У нее нет многих фич, даже StructuredOutputs, но текущая версия заняла 9 место. (2) Еще из новых бенчмарков моделей, которые ранее были бы впечатляющими, но до уровня gpt-oss/qwen3-32b не дотягивают: - qwen3-235b-a22b-2507 - 25 место - deepseek-chat-v3.1 - 31 место - qwen3-30b-a3b-thinking-2507 - 32 место (3) пока StructuredOutputs не починили нигде для gpt-oss моделей - все еще расхлебывают последствия Harmony Response format (ollama ticket, openai ticket, vllm ticket). Поэтому все еще ждем возможности запустить локально эти малотребовательные к железу gpt-oss (в идеале еще и отключив reasoning). Про бенчмарки подробнее написано тут. Ваш, @llm_under_hood 🤗

Из этого канала