"GDPval - Как AI может помочь с работой на $3T в год Получил удовольствие от чтения новой работы OpenAI, где они наняли людей и AI на выполнение самых популярных ""цифровых"" задач и показали, что сотрудник на пару с моделькой может работать в полтора раза быстрее и дешевле. Давайте разбираться: 1) Они взяли 1320 задачи, выполняемые 44 профессиями в индустриях, ответственных за наибольший вклад в ВВП США - тут и мои любимые сейлзы (оптовые продажи), и риэлторы, и медики, и даже частные детективы (!). Важно: в основном, выбирались ""цифровые"" профессии, т.е. такие, где 60%+ задач можно выполнить на компе. 2) Дальше они наняли людей-профессионалов, в среднем, с 14-летним опытом работы в этих ролях в топовых компаниях мира; и те составили 1320 задачек с описанием задачи и приложениями (например, экселька с данными, или картинка) и ожидаемым результатом. Укороченный пример задачки для аккаунт директора в косметическом бренде: ""Тебе надо проанализировать продажи за 2023 для makeup категории товаров и представить отчет в эксель виде. В приложении экселька с продажами"" 3) Потом эксперты вслепую оценивали результаты работы людей и машин: машины уверенно приближаются к результатам экспертов, особенно отличился Claude Opus 4.1 - см картинку. В основном, машины проигрывали людям из-за плохого следования инструкциям. И еще важно, что люди могли вычислить результаты работы модели по emdash-ам и тп стилистическим аспектам, поэтому тут мог быть bias. Также примечательно и похвально, что в ресерче OpenAI они честно показали про Claude. Но что-то мне подсказывает, что сделали они это уже зная, что побьют на этих эвалах своей следующей моделькой :) Если пойти в дебри ""почему"" обычно проигрывала openai, то дело было в форматировании/эстетике ответов, нежели в точности. Рекомендую почитать, не просто опираться на среднюю температуру по больнице —> это можеть дать идеи по преимуществам и недостаткам. ""We built a clustering pipeline to analyze why experts preferred or rejected GPT-5 high, Claude Opus 4.1, Gemini 2.5 Pro, and Grok 4 deliverables as shown in fig. 8.5 Claude, Grok, and Gemini most often lost due to instruction-following failures, while GPT-5 high lost mainly from formatting errors and had the fewest instruction-following issues. Gemini and Grok frequently promised but failed to provide deliverables, ignored reference data, or used the wrong format. GPT-5 and Grok showed the fewest accuracy errors, though all models sometimes hallucinated data or miscalculated."" 4) Интересно, что промптированием и тейлорингом можно было относительно легко повысить точность, поэтому имеет смысл тюнить агентов и промпты под конкретные доменные области 5) В сценариях, где человеку предлагалась в помощь машина в режиме ""попробуй с AI, а если результат не понравится, то сделай сам), они выполняли задачу быстрее и дешевле в 1.5 раза —> де-факто это потенциал оптимизации по состоянию на сегодня. Важно: оценка по деньгам только для openai моделей. 6) и напоследок все это дело они заопенсорсили - я уже запланировал покопаться глубже в тасках, особенно в преддверии AI продактивити курса, потому что будет прикольно поразбирать конкретные таски, кроссчекнуть выводы openai и подобрать промпты, чтобы улучшить бенчмарки :) В общем, рекомендую!"
"GDPval - Как AI может помочь с работой на $3T в год Получил удовольствие от…
Из этого канала
- #1450"Нейрософт от Anthropic Помните мои посты про нейрософт, где AI налету создает…
"Нейрософт от Anthropic Помните мои посты про нейрософт, где AI налету создает софт (1, 2)? Вот и Anthropic с релизом sonnet 4.5 выпустили - Claude Imagine: 1)…
- #1452Как слушать клиента? Показывал другу мое любимое видео, решил и с вами…
Как слушать клиента? Показывал другу мое любимое видео, решил и с вами поделиться: https://youtu.be/tC4Tj9-jivM?si=C68dsVim0p36rPAK
- #1453"Автоматизируем себя с помощью Claude for Chrome Получил доступ к Claude for…
"Автоматизируем себя с помощью Claude for Chrome Получил доступ к Claude for Chrome - это AI, встроенный в браузер, на которого можно скинуть обычные задачи,…
- #1443"Ролевые игры для фаундеров Сегодня проводил лекцию для фаундеров из…
"Ролевые игры для фаундеров Сегодня проводил лекцию для фаундеров из Центральной Азии, покоряющих US, и пошерил с ними промпт для практики своих навыков…
- #1442"Как быть продуктивнее с AI? Помню, как в 2000х мы в резюме указывали…
"Как быть продуктивнее с AI? Помню, как в 2000х мы в резюме указывали ""Уверенный пользователь ПК и MS Office"", и это действительно было конкурентным…