А вот и результаты — они показывают, что модели уже могут быстрее и дешевле справляться с некоторыми повторяющимися, четко определёнными задачами. Однако большинство профессий — это не просто набор задач, которые можно записать в виде инструкции, поэтому речи о полной замене людей, конечно, не идёт. На первом месте с солидным отрывом Claude Opus 4.1, который выдаёт решения, оцениваемые эксертами не ниже, чем исполненные реальными людьми, для 47.6% задач. Только вдумайтесь, при парном сравнении с людьми модели начинают приближаться к паритету с отраслевыми экспертами! На втором месте идёт GPT-5, которая слегка обгоняет o3, а уже затем располагаются все остальные. Самая слабая модель из замеренных — GPT-4o из прошлого поколения — служит точкой отсчёта прогресса, чтобы оценить, насколько большие изменения произошли буквально за год.