Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами, где на ответ наложены ограничения по формату — там впереди нерассуждающие версии. В задачах, где ответ статичен, GPT-5 выбивает столько же, сколько и Claude 4 Sonnet. А вот на задачах с меняющимся ответом модель OpenAI вырывается более чем на 10%.
Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами,…
Из этого канала
- #2802Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для…
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM.
- #2803Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning…
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning Не полноценный разбор статьи + модели, просто почитал интересную для себя часть…
- #2804Пример работы Вверху указаны принципы (вручную написанные инструкции оценки,…
Пример работы Вверху указаны принципы (вручную написанные инструкции оценки, общие для большого количества примеров), сам запрос, правильный ответ и ответ…
- #2800Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё…
Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё равно меньше 50%.
- #2799MCP-Universe: Benchmarking Large Language Models with Real-World Model Context…
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers Свежий бенчмарк от Salesforce, на этот раз тестируют навыки…