MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers Свежий бенчмарк от Salesforce, на этот раз тестируют навыки работы LLM с популярными MCP-серверами. MCP — это предложенный Anthropic в конце 2024-го года протокол взаимодействия LLM со внешними системами и источниками данных. По сути те же инструменты, только собранные в наборы для отдельных сервисов: поиск, Гугл Карты, итд. При этом, так как технология MCP — «молодая», модели ещё не настолько хорошо с ними работают и не обучались на них по сто тыщ раз. Авторы собрали 11 MCP серверов (на 133 инструмента) из 6 доменов, и придумали 231 задачу, которая решается с использованием одного или нескольких MCP: — Для домена навигации по картам выбрали 4 типа подзадач, включая планирование маршрута, оптимальные остановки, поиск местоположения и поиск по ID конкретного заведения — Для домена управления репозиторием с кодом тоже 4 типа подзадач, включая настройку проекта, отслеживание проблем, настройку автоматизации и интеграцию кода — Для домена финансового анализа 5 подзадач: анализ портфеля, финансовая отчетность, торговые стратегии, институциональные активы и анализ дивидендов — Для домена 3D-проектирования (используют Blender) 5 подзадач, включая создание объектов, настройку материалов, конфигурацию освещения, настройки рендеринга и иерархию сцен — Для домена автоматизации браузера 5 подзадач: бронирование билетов, спортивная аналитика, академические исследования, исследование платформы и навигация по карте — Для домена веб-поиска тоже 5: идентификацию человека, обнаружение сущностей, сопоставление метрик, сложные рассуждения и поиск фактов. Существенная часть задач требует больше 5 обращений к MCP-серверу, что подразумевает хорошую работу LLM с длинным контекстом. Результат работы оценивается по трём критериям: оценка формата, простая сверка ответа и динамическая. Последняя — это для запросов в духе «какая сегодня погода», так как ответ меняется из раза в раз. Авторы отсеивали задачи, которые LLM могут сделать без MCP серверов или если модель решает задачу 5 раз из 5 — они были слишком лёгкими.