Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами,…

24 авг. 2025 г.25 283 views94 forwardsОткрыть в Telegram →

Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами, где на ответ наложены ограничения по формату — там впереди нерассуждающие версии. В задачах, где ответ статичен, GPT-5 выбивает столько же, сколько и Claude 4 Sonnet. А вот на задачах с меняющимся ответом модель OpenAI вырывается более чем на 10%.

Источник

https://t.me/seeallochnaya/2801

Канал Сиолошная · опубликовано 24 авг. 2025 г.

Из этого канала

#2802Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для…
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM.
#2803Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning…
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning Не полноценный разбор статьи + модели, просто почитал интересную для себя часть…
#2804Пример работы Вверху указаны принципы (вручную написанные инструкции оценки,…
Пример работы Вверху указаны принципы (вручную написанные инструкции оценки, общие для большого количества примеров), сам запрос, правильный ответ и ответ…
#2800Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё…
Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё равно меньше 50%.
#2799MCP-Universe: Benchmarking Large Language Models with Real-World Model Context…
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers Свежий бенчмарк от Salesforce, на этот раз тестируют навыки…