🌸Релизим GAIA2 — Агенты в реалистичной среде😘 #nlp #nlppapers 🌸TL;DR Выпускаем… — @seeallochnaya

🌸Релизим GAIA2 — Агенты в реалистичной среде😘 #nlp #nlp_papers 🌸TL;DR Выпускаем GAIA2, новую версию основного многоступенчатого бечмарка для агентов, и Agentic Research Environment (ARE), среду для реалистичной симуляции работы агентов в самых разных задачах, — все под открытыми лицензиями. 🌸Состав GAIA2 В отличие от первой версии GAIA (статья конца 2023 года), которая требовала от агентов максимально качественного планирования и многоступенчатых действий, но практически не требовала внешних инструментов, GAIA2 тестируем агенты в среде, где доступно множество API, приложений, промежуточных уточнений от пользователя, и даже других агентов, с которыми надо коллаборировать. Все задачи предполагают многоступенчатые сценарии, где прийти к правильному ответу можно по-разному, но есть промежуточные проверки. В целом, основные способности, которые теперь проверяются у агентов, это: 🟣Execution — способность качественно следовать инструкциям и использовать доступные инструменты и приложения в многоступенчатом плане 🟣Search — способность к поиску и извлечению информации 🟣Ambiguity — способность работать с неоднозначной информацией от пользователя 🟣Adaptability — способность адаптироваться под меняющиеся на лету требования пользователя Time - способность планировать, исполнять регулярные действия, ожидать 🟣Noise — способность дойти до результата вопреки лишней, противоречивой инфомации и ошибкам системы 🟣Agent2Agent — способность коллаборировать с другими агентами в среде На текущий момент, это самый общий и несатурированный бенчмарк для агентов. Ни одна из существующих SOTA-систем не доминирует во всех группах задач, на многих результаты близки к нулю. 🌸Agentic Research Environment: зачем нужна симуляционная среда Оценка агентов становится все более инженерно-трудоемкой и далекой от реальных применений. К GAIA2 прилагается симуляционная среда, в которой сообщество может оценить любую агентную систему: в среде реализован ход времени, динамически меняются обстоятельства, пользователь совершает действия, другие агенты — тоже. Среда поддерживает асинхронное исполнение, и из коробки реализовано большое число мок-приложений и тулзов, чтобы сэмитировать действия пользователя в мобильной среде. При этом для заданий в бенчмарке распределение сложности, тематики задач, требуемых тулзов контролируется. Реализованы тулзы и мок-приложения для заказа такси, имейлов, календаря, и многое другое — все поддерживает MCP. Среду можно использовать не только для тестирования: — можно делать модификации задач, собирать логи, использовать их для обучения — можно делать red teaming системы, тесты на безопасность — есть GUI, поэтому можно просто работать с разметчиками. Пока что это самый большой агентный бенчмарк на общие способности агентов. 🟣Leaderboard: https://huggingface.co/spaces/meta-agents-research-environments/leaderboard 🟣Github: https://github.com/facebookresearch/meta-agents-research-environments 🟣HF demo: https://huggingface.co/spaces/meta-agents-research-environments/demo 🟣HF Blogpost: https://huggingface.co/blog/gaia2 🟣Dataset: https://huggingface.co/datasets/meta-agents-research-environments/gaia2 🟣Свою модель можно прислать: https://facebookresearch.github.io/meta-agents-research-environments/user_guide/gaia2_evaluation.html

Из этого канала