Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами, где на ответ наложены ограничения по формату — там впереди нерассуждающие версии. В задачах, где ответ статичен, GPT-5 выбивает столько же, сколько и Claude 4 Sonnet. А вот на задачах с меняющимся ответом модель OpenAI вырывается более чем на 10%.