Агентские бенчмарки сильно перекошены в пользу того, что легче измерить, и не отражают реальное распределение на рынке труда. How Well Does Agent Development Reflect Real-World Work? __Zora Z. Wang, Sanidhya Vijayvargiya, Aspen Chen, Hanmo Zhang, Venu Arvind Arangarajan, Jett Chen, Valerie Chen, Diyi Yang, Daniel Fried, Graham Neubig__ Статья: https://arxiv.org/abs/2603.01203 Код: https://github.com/zorazrw/ai4work-resources Ревью: https://arxiviq.substack.com/p/how-well-does-agent-development-reflect # TL;DR ЧТО сделали: Авторы разработали систематический фреймворк для маппинга 72 342 задач из 43 бенчмарков для ИИ-агентов напрямую на рынок труда США. Используя профессиональные таксономии O*NET и данные Бюро статистики труда, они количественно оценили, какие именно сектора экономики и навыки реально представлены в текущих наборах для тестирования моделей. ПОЧЕМУ это важно: Исследование подсвечивает огромный структурный перекос в разработке ИИ: мы агрессивно оптимизируем агентов под крошечный, узкоспециализированный срез экономики. Вводя единую метрику сложности задач и автономности агентов, статья даёт количественный ориентир для смещения фокуса с удобных для методологии задач на области с существенно бо́льшим социальным и экономическим импактом. Для практиков: Для руководителей исследований и продуктовых стратегов, создающих general-purpose агентов, эта работа — критическая проверка реальностью. Текущие наборы для оценки подавляюще перекошены в сторону софтверной инженерии (которая составляет всего 7.6% занятости в США), при этом практически игнорируя высокооцифрованные и капиталоёмкие сектора вроде менеджмента и права. Кроме того, авторы вводят математически обоснованное определение автономности агента на основе иерархической сложности воркфлоу. Это позволяет командам строго определять границы возможностей вместо того, чтобы полагаться на бинарные метрики pass/fail на произвольных задачах. Искать под фонарём здесь: https://t.me/gonzo_ML_podcasts/3049
Агентские бенчмарки сильно перекошены в пользу того, что легче измерить, и не…
Из этого канала
- #5093Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного…
Агенты переписывают свой харнесс. Анализ полных логов лучше выхолощенного реворда.
- #5097Самодистилляция — интересный феномен, мне она всегда нравилась. В текущей…
Самодистилляция — интересный феномен, мне она всегда нравилась. В текущей работе предложили простой вариант самодистилляции на невалидированных сэмплах,…
- #5102Это особенно прекрасно
Это особенно прекрасно
- #5087Интересный феномен. Если мультимодальной модели по-тихому отключить картиночный…
Интересный феномен. Если мультимодальной модели по-тихому отключить картиночный вход и оставить только текстовый промпт, она может считать, что картинка у неё…
- #5081Интересная работа про природу вещей — трансформеры имеют встроенный байес к…
Интересная работа про природу вещей — трансформеры имеют встроенный байес к выучиванию факторизованных представлений.