Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой я всё ещё придерживаюсь — это что модель больше, мелкие детали и особенности знает лучше, ну и на каждый токен больше вычислений делает, и потому лучше; тут без сюрпризов. Альтернативной гипотезой было что модель лучше создаёт визуал: модели OpenAI долгое время были похуже в работе с веб-страницами итд. Я увидел, что некоторые из задач в бенчмарке могут быть к этому чувствительны — там просят сверстать презентацию или PDF-брошюру. Сам я конечно 220 промптов длиной полстраницы буду глазами долго отсматривать, решил перепрогнать через LLM и сделать классификацию. Перевод этой части промпта: ``` В контексте оценки мы можем считать исполнителя неряшливым, но очень умным. Ему не важна визуальная составляющая, и результат может выглядеть халтурным, но при этом сам контент правильный/сделан по инструкции. Насколько значительным будет влияние на результат в этом случае? ``` В 58% задач, согласно GPT-5-high, эффекта нет или он несущественнен. В 8% задач — очень важен. В теории это может объяснить разницу в бенчмарке, но не думаю, что это compelling evidence. Вместе с этим решил посмотреть на ещё несколько срезов: — длительность задачи; OpenAI говорили, что экспертам в среднем нужно было 6.5 часов. В целом похоже на правду, 90% задач делаются в течение одного 8-часового рабочего дня. — в комментариях отметили, что многие промпты очень детальны, в них много деталей под конкретную задачу. GPT-5 считает, что в 55% задач описания очень общие (я смотрел и в целом согласен), и лишь в 9% задач текст прям совсем заточен на один пример — в дополнение к этому оценил, сколько времени нужно на то, чтобы подготовить контекст для составления такого промпта. Одно дело заменить название файлов, другое — полностью переписать инструкции, потому что они не обобщаются. 61% задач потребует меньше 30 минут на то, чтобы собрать контекст и переработать промпт. 13% требуют больше 1 часа. — было интересно глянуть, какой формат ответа ожидается; не везде это просто текстовый файл, иногда это презентация, экселька или даже видео. — и напоследок как часто экспертам приходится делать задачу (в статье про это ничего нет). 87% задач делаются реже, чем раз в неделю. Я посмотрел, многие из них похожи на ежемесячные или ежеквартальные задачки, хотя есть и просто адхоки (разово сделать и забыть). Промпт для анализа залил сюда. Можете предлагать новые срезы и критерии, если что-то понравится — добавлю и прогоню.
Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой…
Из этого канала
- #2938Решил запостить это в твиттер, даже подписку пришлось купить. Если у вас есть…
Решил запостить это в твиттер, даже подписку пришлось купить. Если у вас есть аккаунт — лайкните пж.
- #2939В декабре 2024-го OpenAI наняли директора по маркетингу; были ожидания, что в…
В декабре 2024-го OpenAI наняли директора по маркетингу; были ожидания, что в 2025-м году у ChatGPT как флагманского продукта компании будет МНОГО рекламы.
- #2943Новая новая моделька от DeepSeek для интересующихся. Модель тренировали свежей…
Новая новая моделька от DeepSeek для интересующихся. Модель тренировали свежей V3.1-Terminus, но слегка изменив механизм внимания, DeepSeek Sparse Attention.
- #2931GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход.…
GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход. Пожалуй, главное ограничение текущего бенчмарка — это то, что он является…
- #2930На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по…
На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по времени и по деньгам можно ожидать при выполнении задач, схожими с теми, что…