На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по времени и по деньгам можно ожидать при выполнении задач, схожими с теми, что включены в бенчмарк. Это значение очень сильно варьируется от модели. Если использовать GPT-4o (кто так будет делать в здравом уме?), то можно ожидать замедления и удорожания вдвое. С GPT-5 обе метрики улучшаются примерно на 50% — это при подходе «сначала описать и сформулировать свою задачу, запросить у GPT-5 ответ, оценить его, если не понравиться попробовать ещё несколько раз, и если по итогу не сработает, то сделать самому». Да, иногда выходит медленнее, но в среднем — быстрее, а значит дешевле для бизнеса. «Но почему я не вижу этого в своих задачах???» — две приичны: 1. Сравните свои промпты и те, что описывают задачи в датасете, насколько они детальны, формализованы и проработаны. 2. Здесь используется не голая ChatGPT, а некоторый агент, и к тому же параллельно генерируется 4 решения, а затем модель сама выбирает лучшее из них, проверяя соответствие исходным критериям.
На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по…
Из этого канала
- #2931GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход.…
GDPval — это лишь начальный этап. OpenAI продолжат совершенствовать подход. Пожалуй, главное ограничение текущего бенчмарка — это то, что он является…
- #2932Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой…
Хотел понять, почему на GDPval Opus обгоняет GPT-5. Основная гипотеза, которой я всё ещё придерживаюсь — это что модель больше, мелкие детали и особенности…
- #2938Решил запостить это в твиттер, даже подписку пришлось купить. Если у вас есть…
Решил запостить это в твиттер, даже подписку пришлось купить. Если у вас есть аккаунт — лайкните пж.
- #2928Также сделали анализ проигрышных ответов от ИИ. На первой картинке — причины,…
Также сделали анализ проигрышных ответов от ИИ. На первой картинке — причины, которые указывали эксперты, почему они считают, что решение хуже, чем у человека.
- #2926Качество ИИ-систем не одинаковое во всех 9 доменах. На первой картинке видно,…
Качество ИИ-систем не одинаковое во всех 9 доменах. На первой картинке видно, что есть группы задач, в которых модели очень отстают.