На основе решений от ИИ строят модель, которая оценивает, какой выигрыш по времени и по деньгам можно ожидать при выполнении задач, схожими с теми, что включены в бенчмарк. Это значение очень сильно варьируется от модели. Если использовать GPT-4o (кто так будет делать в здравом уме?), то можно ожидать замедления и удорожания вдвое. С GPT-5 обе метрики улучшаются примерно на 50% — это при подходе «сначала описать и сформулировать свою задачу, запросить у GPT-5 ответ, оценить его, если не понравиться попробовать ещё несколько раз, и если по итогу не сработает, то сделать самому». Да, иногда выходит медленнее, но в среднем — быстрее, а значит дешевле для бизнеса. «Но почему я не вижу этого в своих задачах???» — две приичны: 1. Сравните свои промпты и те, что описывают задачи в датасете, насколько они детальны, формализованы и проработаны. 2. Здесь используется не голая ChatGPT, а некоторый агент, и к тому же параллельно генерируется 4 решения, а затем модель сама выбирает лучшее из них, проверяя соответствие исходным критериям.