А вот и результаты — они показывают, что модели уже могут быстрее и дешевле справляться с некоторыми повторяющимися, четко определёнными задачами. Однако большинство профессий — это не просто набор задач, которые можно записать в виде инструкции, поэтому речи о полной замене людей, конечно, не идёт. На первом месте с солидным отрывом Claude Opus 4.1, который выдаёт решения, оцениваемые эксертами не ниже, чем исполненные реальными людьми, для 47.6% задач. Только вдумайтесь, при парном сравнении с людьми модели начинают приближаться к паритету с отраслевыми экспертами! На втором месте идёт GPT-5, которая слегка обгоняет o3, а уже затем располагаются все остальные. Самая слабая модель из замеренных — GPT-4o из прошлого поколения — служит точкой отсчёта прогресса, чтобы оценить, насколько большие изменения произошли буквально за год.
А вот и результаты — они показывают, что модели уже могут быстрее и дешевле…
Из этого канала
- #2926Качество ИИ-систем не одинаковое во всех 9 доменах. На первой картинке видно,…
Качество ИИ-систем не одинаковое во всех 9 доменах. На первой картинке видно, что есть группы задач, в которых модели очень отстают.
- #2928Также сделали анализ проигрышных ответов от ИИ. На первой картинке — причины,…
Также сделали анализ проигрышных ответов от ИИ. На первой картинке — причины, которые указывали эксперты, почему они считают, что решение хуже, чем у человека.
- #2930На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по…
На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по времени и по деньгам можно ожидать при выполнении задач, схожими с теми, что…
- #29249 областей и 44 профессии, интеллектуальные задачи из которых отобрали в…
9 областей и 44 профессии, интеллектуальные задачи из которых отобрали в бенчмарк. 1. Недвижимость, аренда и лизинг 2. Государственные службы 3.
- #2923"В уставе OpenAI AGI, artificial general intelligence, определяется так:…
"В уставе OpenAI AGI, artificial general intelligence, определяется так: высокоавтономные системы, которые превосходят людей в большинстве экономически ценных…