Но есть ещё 4 главных бенчмарка, которые выпятили OpenAI, и все они — про экономически ценные задачи, основанные на анализе реальной ежедневной работы специалистов. 1. Общий бенчмарк «Economically important tasks», про который деталей особо нет. «Эти задачи, порученные экспертам из разных профессий и отраслей, отражают реальную профессиональную работу, такую как подготовка конкурентного анализа поставщиков услуг неотложной помощи по требованию, составление подробных графиков амортизации и определение перспективных скважин для нового объекта по производству экологически чистого водорода». Тут оценивается доля ответов, где было отдано предпочтение ответу модели нежели написанному человеком — в разрезе длительности выполнения задачи человеком. 2. SpreadsheetBench, который оценивает модели по их способности редактировать электронные таблицы, созданные на основе реальных сценариев. Примеры вопросов смотрите тут на 25 странице и далее. 3. Ещё один внутренний бенчмарк « ...измеряющий способность модели справляться с задачами моделирования, выполняемыми аналитиками инвестиционного банкинга в течение первого-третьего года работы, например, с составлением финансовой модели из трёх отчётов для компании из списка Fortune 500 с корректным форматированием и ссылками или с построением модели выкупа с использованием заёмных средств для приобретения частной компании». Каждая задача оценивается по сотням критериев, связанных с корректностью и используемыми формулами. 4. BrowseComp, свежий бенчмарк OpenAI от апреля. Измеряет способность агентов находить труднодоступную информацию в интернете. Статья тут. В общем, нужно подождать ~месяц, чтобы понять ценность в реальных рабочих задачах (хотя Денис вон уже кайфует), но направление, в котором делаются улучшения, понятно. И всё это доступно и Plus пользователям с подпиской за $20 в месяц!