Агентские бенчмарки сильно перекошены в пользу того, что легче измерить, и не отражают реальное распределение на рынке труда. How Well Does Agent Development Reflect Real-World Work? __Zora Z. Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig__ Статья: https://arxiv.org/abs/2603.01203 Код: https://github.com/zorazrw/ai4work-resources Ревью: https://arxiviq.substack.com/p/how-well-does-agent-development-reflect # TL;DR ЧТО сделали: Авторы разработали систематический фреймворк для маппинга 72 342 задач из 43 бенчмарков для ИИ-агентов напрямую на рынок труда США. Используя профессиональные таксономии O*NET и данные Бюро статистики труда, они количественно оценили, какие именно сектора экономики и навыки реально представлены в текущих наборах для тестирования моделей. ПОЧЕМУ это важно: Исследование подсвечивает огромный структурный перекос в разработке ИИ: мы агрессивно оптимизируем агентов под крошечный, узкоспециализированный срез экономики. Вводя единую метрику сложности задач и автономности агентов, статья даёт количественный ориентир для смещения фокуса с удобных для методологии задач на области с существенно бо́льшим социальным и экономическим импактом. Для практиков: Для руководителей исследований и продуктовых стратегов, создающих general-purpose агентов, эта работа — критическая проверка реальностью. Текущие наборы для оценки подавляюще перекошены в сторону софтверной инженерии (которая составляет всего 7.6% занятости в США), при этом практически игнорируя высокооцифрованные и капиталоёмкие сектора вроде менеджмента и права. Кроме того, авторы вводят математически обоснованное определение автономности агента на основе иерархической сложности воркфлоу. Это позволяет командам строго определять границы возможностей вместо того, чтобы полагаться на бинарные метрики pass/fail на произвольных задачах. Искать под фонарём здесь: https://t.me/gonzo_ML_podcasts/3049