"GDPval - Как AI может помочь с работой на $3T в год Получил удовольствие от… — @ProductsAndStartups

"GDPval - Как AI может помочь с работой на $3T в год Получил удовольствие от чтения новой работы OpenAI, где они наняли людей и AI на выполнение самых популярных ""цифровых"" задач и показали, что сотрудник на пару с моделькой может работать в полтора раза быстрее и дешевле. Давайте разбираться: 1) Они взяли 1320 задачи, выполняемые 44 профессиями в индустриях, ответственных за наибольший вклад в ВВП США - тут и мои любимые сейлзы (оптовые продажи), и риэлторы, и медики, и даже частные детективы (!). Важно: в основном, выбирались ""цифровые"" профессии, т.е. такие, где 60%+ задач можно выполнить на компе. 2) Дальше они наняли людей-профессионалов, в среднем, с 14-летним опытом работы в этих ролях в топовых компаниях мира; и те составили 1320 задачек с описанием задачи и приложениями (например, экселька с данными, или картинка) и ожидаемым результатом. Укороченный пример задачки для аккаунт директора в косметическом бренде: ""Тебе надо проанализировать продажи за 2023 для makeup категории товаров и представить отчет в эксель виде. В приложении экселька с продажами"" 3) Потом эксперты вслепую оценивали результаты работы людей и машин: машины уверенно приближаются к результатам экспертов, особенно отличился Claude Opus 4.1 - см картинку. В основном, машины проигрывали людям из-за плохого следования инструкциям. И еще важно, что люди могли вычислить результаты работы модели по emdash-ам и тп стилистическим аспектам, поэтому тут мог быть bias. Также примечательно и похвально, что в ресерче OpenAI они честно показали про Claude. Но что-то мне подсказывает, что сделали они это уже зная, что побьют на этих эвалах своей следующей моделькой :) Если пойти в дебри ""почему"" обычно проигрывала openai, то дело было в форматировании/эстетике ответов, нежели в точности. Рекомендую почитать, не просто опираться на среднюю температуру по больнице —> это можеть дать идеи по преимуществам и недостаткам. ""We built a clustering pipeline to analyze why experts preferred or rejected GPT-5 high, Claude Opus 4.1, Gemini 2.5 Pro, and Grok 4 deliverables as shown in fig. 8.5 Claude, Grok, and Gemini most often lost due to instruction-following failures, while GPT-5 high lost mainly from formatting errors and had the fewest instruction-following issues. Gemini and Grok frequently promised but failed to provide deliverables, ignored reference data, or used the wrong format. GPT-5 and Grok showed the fewest accuracy errors, though all models sometimes hallucinated data or miscalculated."" 4) Интересно, что промптированием и тейлорингом можно было относительно легко повысить точность, поэтому имеет смысл тюнить агентов и промпты под конкретные доменные области 5) В сценариях, где человеку предлагалась в помощь машина в режиме ""попробуй с AI, а если результат не понравится, то сделай сам), они выполняли задачу быстрее и дешевле в 1.5 раза —> де-факто это потенциал оптимизации по состоянию на сегодня. Важно: оценка по деньгам только для openai моделей. 6) и напоследок все это дело они заопенсорсили - я уже запланировал покопаться глубже в тасках, особенно в преддверии AI продактивити курса, потому что будет прикольно поразбирать конкретные таски, кроссчекнуть выводы openai и подобрать промпты, чтобы улучшить бенчмарки :) В общем, рекомендую!"

Из этого канала