Также сделали анализ проигрышных ответов от ИИ. На первой картинке — причины, которые указывали эксперты, почему они считают, что решение хуже, чем у человека. В большинстве своём ошибки кроются в следовании инструкциям и форматированию ответов. На второй картинке — оценка критичности ошибок у GPT-5. В 22% проигранных сравнений перепроверка не выявила существенных проблем. Ешё 48% решений были в целом приемлемы. Лишь в 2.7% ответ был катастрофично плох, то есть содержал крупную ошибку или вредный совет/хамство. К сожалению, для человеческого бейзлайна такой оценки нет 😀