Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой… — @seeallochnaya

Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой я всё ещё придерживаюсь — это что модель больше, мелкие детали и особенности знает лучше, ну и на каждый токен больше вычислений делает, и потому лучше; тут без сюрпризов. Альтернативной гипотезой было что модель лучше создаёт визуал: модели OpenAI долгое время были похуже в работе с веб-страницами итд. Я увидел, что некоторые из задач в бенчмарке могут быть к этому чувствительны — там просят сверстать презентацию или PDF-брошюру. Сам я конечно 220 промптов длиной полстраницы буду глазами долго отсматривать, решил перепрогнать через LLM и сделать классификацию. Перевод этой части промпта: ``` В контексте оценки мы можем считать исполнителя неряшливым, но очень умным. Ему не важна визуальная составляющая, и результат может выглядеть халтурным, но при этом сам контент правильный/сделан по инструкции. Насколько значительным будет влияние на результат в этом случае? ``` В 58% задач, согласно GPT-5-high, эффекта нет или он несущественнен. В 8% задач — очень важен. В теории это может объяснить разницу в бенчмарке, но не думаю, что это compelling evidence. Вместе с этим решил посмотреть на ещё несколько срезов: — длительность задачи; OpenAI говорили, что экспертам в среднем нужно было 6.5 часов. В целом похоже на правду, 90% задач делаются в течение одного 8-часового рабочего дня. — в комментариях отметили, что многие промпты очень детальны, в них много деталей под конкретную задачу. GPT-5 считает, что в 55% задач описания очень общие (я смотрел и в целом согласен), и лишь в 9% задач текст прям совсем заточен на один пример — в дополнение к этому оценил, сколько времени нужно на то, чтобы подготовить контекст для составления такого промпта. Одно дело заменить название файлов, другое — полностью переписать инструкции, потому что они не обобщаются. 61% задач потребует меньше 30 минут на то, чтобы собрать контекст и переработать промпт. 13% требуют больше 1 часа. — было интересно глянуть, какой формат ответа ожидается; не везде это просто текстовый файл, иногда это презентация, экселька или даже видео. — и напоследок как часто экспертам приходится делать задачу (в статье про это ничего нет). 87% задач делаются реже, чем раз в неделю. Я посмотрел, многие из них похожи на ежемесячные или ежеквартальные задачки, хотя есть и просто адхоки (разово сделать и забыть). Промпт для анализа залил сюда. Можете предлагать новые срезы и критерии, если что-то понравится — добавлю и прогоню.

Из этого канала