уставе OpenAI AGI, artificial general intelligence, определяется так: высокоавтономные системы, которые превосходят людей в большинстве экономически ценных работ. Самое главное в ИИ гонке — это насколько предоставляемые компаниями инструменты действительно влияют на реальные работы и задачи, и, в конечном итоге, насколько растят экономику. Бенчмарки последних лет выступают в качестве прокси к тем или иным навыкам, которые, как мы верим, нужны для выполнения работы. Прокси бывают разного качества: по вопросу «сколько слов ""клубника"" в букве ""а""» мы не можем сделать хороших выводов о пользе ИИ-систем в прикладных задачах; SWE-Bench и его разновидности позволяют как-то оценить навыки локализации кусков логики в коде и добавления функционала. OpenAI сделали первую попытку подойти к оценке влияния на ВВП и выпустили GDPval — бенчмарк, охватывающий более тысячи интеллектуальных задач из 44 профессий в 9 областях с наибольшим вкладом в ВВП. Каждая задача тщательно подготовлена и проверена экспертами с опытом в конкретной области. Все задачи максимально приближены к рабочим и опираются не только на текст запроса, но и на артефакты: юридические документы, инженерные чертежи, записи разговоров службы поддержки и так далее. От системы, в свою очередь, ожидается не просто ответ в чате, а применимые в работе документы, презентации, диаграммы, таблицы и даже мультимедийные материалы (ролики). Для каждой профессии OpenAI работали с опытными специалистами, чтобы составить список типичных задач, отражающих повседневную деятельность. Средний стаж этих специалистов составляет 14 лет, и все они имеют высокий уровень профессиональных достижений. Также намеренно привлекались эксперты с разнородным опытом — например, юристов из различных направлений практики и фирм разных размеров — чтобы максимально повысить репрезентативность задач. В подготовку каждого вопроса привлекалось несколько специалистов. В среднем каждая задача прошла 5 раундов проверок, включая перекрестную проверку авторами других задач, экспертами и валидацию с помощью LLM. Для каждой задачи эксперт с опытом подготовил решение, как если бы это было частью его работы. В среднем на одно решение уходило шесть с половиной часов. Решения от LLM также оцениваются вручную экспертами; тем предлагается два решения (одно от человека, другое от LLM), и необходимо их сравнить и выбрать, какое лучше (или присвоить ничью). На оценку одной пары в среднем тратилось 109 минут. OpenAI пытались автоматизировать этот процесс, но согласованность с оценками людей пока чуть ниже нужного уровня. Исследователям, которые будут пытаться работать с бенчмарком, OpenAI будет помогать с оценкой решений (собирать и оплачивать экспертов). В публичный доступ выложено 220 вопросов, по 5 на каждую из профессий — с ними можно ознакомиться тут; очень рекомендую это сделать, чтобы понять уровень задач."