Remote Labor Index: Measuring AI Automation of Remote Work Всё никак не доходили руки написать про новый замечательный бенчмарк от Dan Hendrycks. OpenAI недавно представили GDPval (писал тут) — бенчмарк для оценки навыков моделей в экономически важных задачах. Духовно Remote Labor Index, или RLI, является его наследником. Как следует из названия, RLI пытается оценить, какую долю экономически важных задач, выполняемых удалёнными сотрудниками, могут решить агенты. Ключевым отличием от работы OpenAI является широта набора задач и длительность каждой из них — для составления выборки в 230 проблем использовали рубрику с сайта UpWork, а конкретные проекты брали у исполнителей там же. При этом намеренно выкинули задачи. в которых AI уже поднатарел — на поиск/вычитку текстовых материалов и написание текстовых отчётов. И очень малая доля проектов касается программирования напрямую, в отличии от множества других бенчмарков. Среднее время выполнения одного проекта человеком 28.9 часов, медианное 11.5. Суммарно за выполнение всех проектов заплатили примерно $140'000 (за более чем 6'000 часов работы). Как и в любом бенчмарке, есть упрощения и разница с реальными задачами — в данном случае это отсутствие проектов, требующей итеративной работы с командой заказчика. В остальном он очень близок к «реальным» задачам — тут есть и 3D-моделирование, и создание рекламы, и планирование дома в специальном ПО с учётом большого количества требований. (ну и про то что всё на англ я даже не упоминаю) TLDR результатов: сейчас лучшие системы (Manus) показывают лишь 2.5% «автоматизации» (где работа модели была оценена не хуже работы специалиста, оценка производится вручную), и около 1%, если переводить в деньги. Очень интересно, где эта цифра окажется через год-два — смогут ли AI-системы взять на себя больше 20% задач? Каждый процент на этом бенчмарке — это десятки, если не сотни, миллиардов выручки, которая может перетечь от людей к компаниям, предоставляющим услуги AI-агентов. Из интересного — авторы пишут про те задачи, где модели достигли успеха. «.. в ряде задач, связанных с редактированием, сведением и продакшеном аудио (например, создание уникальных звуковых эффектов для ретро-видеоигр, отделение вокала от аккомпанемента в единой аудиодорожке, наложение голосовых комментариев на интро- и аутро-музыку), а также в задачах по генерации изображений (например, создание рекламы и логотипов)» — так что видимо за программистами на выход пойдут звуковики 😀 Самые частые причины проблем: — в 45% случаев просто низкое качество работы, не соответствует профессиональным стандартам — в 52% случаев файлы битые/не открываются/не в том формате, так как агент по сути не закончил работу
Remote Labor Index: Measuring AI Automation of Remote Work Всё никак не…
Из этого канала
- #3097А вот примеры проектов и результатов работы людей / AI, чтобы примерно…
А вот примеры проектов и результатов работы людей / AI, чтобы примерно представить, что внутри. Ещё рекомендую перейти в Explore на сайте и полистать там.
- #3103Начинаем день с целых двух постов про новые модели! Первый будет картинкой:
Начинаем день с целых двух постов про новые модели! Первый будет картинкой:
- #3104Второй тоже картинкой: Ссылка на PDF: тык Блога пока нет, ждём тут в ближайшие…
Второй тоже картинкой: Ссылка на PDF: тык Блога пока нет, ждём тут в ближайшие часы: https://deepmind.google/models/evals/gemini-3-pro/ Позже днём, с…
- #3095👶 В общем, тут ходят слухи, что в скором времени анонсируют Half-Life 3.…
👶 В общем, тут ходят слухи, что в скором времени анонсируют Half-Life 3. Специально для вас я разобрался в этом, позвонил нужным людям, обкашлял вопросики,…
- #3094Модель — без дообучения и изменений — смогла даже в Wukong поиграть, но тут…
Модель — без дообучения и изменений — смогла даже в Wukong поиграть, но тут из-за разницы графики и уж совсем нетипичности геймплея забуксовала, и ощутимого…