Новые бенчмарки LLM на бизнес задачах в SGR режиме (1) gpt-5-chat-latest - это урезанный снапшот быстрой модели, которая работает под капотом в ChatGPT. У нее нет многих фич, даже StructuredOutputs, но текущая версия заняла 9 место. (2) Еще из новых бенчмарков моделей, которые ранее были бы впечатляющими, но до уровня gpt-oss/qwen3-32b не дотягивают: - qwen3-235b-a22b-2507 - 25 место - deepseek-chat-v3.1 - 31 место - qwen3-30b-a3b-thinking-2507 - 32 место (3) пока StructuredOutputs не починили нигде для gpt-oss моделей - все еще расхлебывают последствия Harmony Response format (ollama ticket, openai ticket, vllm ticket). Поэтому все еще ждем возможности запустить локально эти малотребовательные к железу gpt-oss (в идеале еще и отключив reasoning). Про бенчмарки подробнее написано тут. Ваш, @llm_under_hood 🤗
Новые бенчмарки LLM на бизнес задачах в SGR режиме (1) gpt-5-chat-latest - это…
Из этого канала
- #648"Как полностью отключить reasoning у GPT-5 моделей? Мне стало интересно,…
"Как полностью отключить reasoning у GPT-5 моделей? Мне стало интересно, сколько времени уходит на reasoning у GPT-5 моделей, а ребята из окружения OpenAI как…
- #649Бенчмарк LLM и агентских подходов - будет На прошлой неделе я начал…
Бенчмарк LLM и агентских подходов - будет На прошлой неделе я начал разрабатывать среду для тестирования агентов (AGES - Agentic Enterprise Simulation).
- #650Примерно так идет разработка Agentic Enterprise Simulator для ERC3. Пока проект…
Примерно так идет разработка Agentic Enterprise Simulator для ERC3. Пока проект в самом начале, приходится часто засучивать рукава, чистить тех долг, ставить…
- #646"AI неотличим от магии - и это меня дико раздражает (до комментариев - читаем…
"AI неотличим от магии - и это меня дико раздражает (до комментариев - читаем пост до конца!) Этой весной я делал доклад для IBM про текущее состояние AI.
- #645"Демо чата с Deep Search поиском - SGR Deep Research На базе демки…
"Демо чата с Deep Search поиском - SGR Deep Research На базе демки бизнес-ассистента с Schema-Guided Reasoning продолжают делать новые и интересные…