Также сделали анализ проигрышных ответов от ИИ. На первой картинке — причины, которые указывали эксперты, почему они считают, что решение хуже, чем у человека. В большинстве своём ошибки кроются в следовании инструкциям и форматированию ответов. На второй картинке — оценка критичности ошибок у GPT-5. В 22% проигранных сравнений перепроверка не выявила существенных проблем. Ешё 48% решений были в целом приемлемы. Лишь в 2.7% ответ был катастрофично плох, то есть содержал крупную ошибку или вредный совет/хамство. К сожалению, для человеческого бейзлайна такой оценки нет 😀
Также сделали анализ проигрышных ответов от ИИ. На первой картинке — причины,…
Из этого канала
- #2930На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по…
На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по времени и по деньгам можно ожидать при выполнении задач, схожими с теми, что…
- #2931GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход.…
GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход. Пожалуй, главное ограничение текущего бенчмарка — это то, что он является…
- #2932Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой…
Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой я всё ещё придерживаюсь — это что модель больше, мелкие детали и особенности…
- #2926Качество ИИ-систем не одинаковое во всех 9 доменах. На первой картинке видно,…
Качество ИИ-систем не одинаковое во всех 9 доменах. На первой картинке видно, что есть группы задач, в которых модели очень отстают.
- #2925А вот и результаты — они показывают, что модели уже могут быстрее и дешевле…
А вот и результаты — они показывают, что модели уже могут быстрее и дешевле справляться с некоторыми повторяющимися, четко определёнными задачами.