"В уставе OpenAI AGI, artificial general intelligence, определяется так: высокоавтономные системы, которые превосходят людей в большинстве экономически ценных работ. Самое главное в ИИ гонке — это насколько предоставляемые компаниями инструменты действительно влияют на реальные работы и задачи, и, в конечном итоге, насколько растят экономику. Бенчмарки последних лет выступают в качестве прокси к тем или иным навыкам, которые, как мы верим, нужны для выполнения работы. Прокси бывают разного качества: по вопросу «сколько слов ""клубника"" в букве ""а""» мы не можем сделать хороших выводов о пользе ИИ-систем в прикладных задачах; SWE-Bench и его разновидности позволяют как-то оценить навыки локализации кусков логики в коде и добавления функционала. OpenAI сделали первую попытку подойти к оценке влияния на ВВП и выпустили GDPval — бенчмарк, охватывающий более тысячи интеллектуальных задач из 44 профессий в 9 областях с наибольшим вкладом в ВВП. Каждая задача тщательно подготовлена и проверена экспертами с опытом в конкретной области. Все задачи максимально приближены к рабочим и опираются не только на текст запроса, но и на артефакты: юридические документы, инженерные чертежи, записи разговоров службы поддержки и так далее. От системы, в свою очередь, ожидается не просто ответ в чате, а применимые в работе документы, презентации, диаграммы, таблицы и даже мультимедийные материалы (ролики). Для каждой профессии OpenAI работали с опытными специалистами, чтобы составить список типичных задач, отражающих повседневную деятельность. Средний стаж этих специалистов составляет 14 лет, и все они имеют высокий уровень профессиональных достижений. Также намеренно привлекались эксперты с разнородным опытом — например, юристов из различных направлений практики и фирм разных размеров — чтобы максимально повысить репрезентативность задач. В подготовку каждого вопроса привлекалось несколько специалистов. В среднем каждая задача прошла 5 раундов проверок, включая перекрестную проверку авторами других задач, экспертами и валидацию с помощью LLM. Для каждой задачи эксперт с опытом подготовил решение, как если бы это было частью его работы. В среднем на одно решение уходило шесть с половиной часов. Решения от LLM также оцениваются вручную экспертами; тем предлагается два решения (одно от человека, другое от LLM), и необходимо их сравнить и выбрать, какое лучше (или присвоить ничью). На оценку одной пары в среднем тратилось 109 минут. OpenAI пытались автоматизировать этот процесс, но согласованность с оценками людей пока чуть ниже нужного уровня. Исследователям, которые будут пытаться работать с бенчмарком, OpenAI будет помогать с оценкой решений (собирать и оплачивать экспертов). В публичный доступ выложено 220 вопросов, по 5 на каждую из профессий — с ними можно ознакомиться тут; очень рекомендую это сделать, чтобы понять уровень задач."
"В уставе OpenAI AGI, artificial general intelligence, определяется так:…
Из этого канала
- #29249 областей и 44 профессии, интеллектуальные задачи из которых отобрали в…
9 областей и 44 профессии, интеллектуальные задачи из которых отобрали в бенчмарк. 1. Недвижимость, аренда и лизинг 2. Государственные службы 3.
- #2925А вот и результаты — они показывают, что модели уже могут быстрее и дешевле…
А вот и результаты — они показывают, что модели уже могут быстрее и дешевле справляться с некоторыми повторяющимися, четко определёнными задачами.
- #2926Качество ИИ-систем не одинаковое во всех 9 доменах. На первой картинке видно,…
Качество ИИ-систем не одинаковое во всех 9 доменах. На первой картинке видно, что есть группы задач, в которых модели очень отстают.
- #2920Прикольно, мне ChatGPT Pulse подсказывает какие у Vibe moat нужно развивать,…
Прикольно, мне ChatGPT Pulse подсказывает какие у Vibe moat нужно развивать, какие метрики считать для предсказания виральности, как растить ретеншен
- #2919А вот и первый продукт, который (пока) будет доступен только Pro-пользователям:…
А вот и первый продукт, который (пока) будет доступен только Pro-пользователям: ChatGPT Pulse.