Remote Labor Index: Measuring AI Automation of Remote Work Всё никак не доходили руки написать про новый замечательный бенчмарк от Dan Hendrycks. OpenAI недавно представили GDPval (писал тут) — бенчмарк для оценки навыков моделей в экономически важных задачах. Духовно Remote Labor Index, или RLI, является его наследником. Как следует из названия, RLI пытается оценить, какую долю экономически важных задач, выполняемых удалёнными сотрудниками, могут решить агенты. Ключевым отличием от работы OpenAI является широта набора задач и длительность каждой из них — для составления выборки в 230 проблем использовали рубрику с сайта UpWork, а конкретные проекты брали у исполнителей там же. При этом намеренно выкинули задачи. в которых AI уже поднатарел — на поиск/вычитку текстовых материалов и написание текстовых отчётов. И очень малая доля проектов касается программирования напрямую, в отличии от множества других бенчмарков. Среднее время выполнения одного проекта человеком 28.9 часов, медианное 11.5. Суммарно за выполнение всех проектов заплатили примерно $140'000 (за более чем 6'000 часов работы). Как и в любом бенчмарке, есть упрощения и разница с реальными задачами — в данном случае это отсутствие проектов, требующей итеративной работы с командой заказчика. В остальном он очень близок к «реальным» задачам — тут есть и 3D-моделирование, и создание рекламы, и планирование дома в специальном ПО с учётом большого количества требований. (ну и про то что всё на англ я даже не упоминаю) TLDR результатов: сейчас лучшие системы (Manus) показывают лишь 2.5% «автоматизации» (где работа модели была оценена не хуже работы специалиста, оценка производится вручную), и около 1%, если переводить в деньги. Очень интересно, где эта цифра окажется через год-два — смогут ли AI-системы взять на себя больше 20% задач? Каждый процент на этом бенчмарке — это десятки, если не сотни, миллиардов выручки, которая может перетечь от людей к компаниям, предоставляющим услуги AI-агентов. Из интересного — авторы пишут про те задачи, где модели достигли успеха. «.. в ряде задач, связанных с редактированием, сведением и продакшеном аудио (например, создание уникальных звуковых эффектов для ретро-видеоигр, отделение вокала от аккомпанемента в единой аудиодорожке, наложение голосовых комментариев на интро- и аутро-музыку), а также в задачах по генерации изображений (например, создание рекламы и логотипов)» — так что видимо за программистами на выход пойдут звуковики 😀 Самые частые причины проблем: — в 45% случаев просто низкое качество работы, не соответствует профессиональным стандартам — в 52% случаев файлы битые/не открываются/не в том формате, так как агент по сути не закончил работу