MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers Свежий бенчмарк от Salesforce, на этот раз тестируют навыки работы LLM с популярными MCP-серверами. MCP — это предложенный Anthropic в конце 2024-го года протокол взаимодействия LLM со внешними системами и источниками данных. По сути те же инструменты, только собранные в наборы для отдельных сервисов: поиск, Гугл Карты, итд. При этом, так как технология MCP — «молодая», модели ещё не настолько хорошо с ними работают и не обучались на них по сто тыщ раз. Авторы собрали 11 MCP серверов (на 133 инструмента) из 6 доменов, и придумали 231 задачу, которая решается с использованием одного или нескольких MCP: — Для домена навигации по картам выбрали 4 типа подзадач, включая планирование маршрута, оптимальные остановки, поиск местоположения и поиск по ID конкретного заведения — Для домена управления репозиторием с кодом тоже 4 типа подзадач, включая настройку проекта, отслеживание проблем, настройку автоматизации и интеграцию кода — Для домена финансового анализа 5 подзадач: анализ портфеля, финансовая отчетность, торговые стратегии, институциональные активы и анализ дивидендов — Для домена 3D-проектирования (используют Blender) 5 подзадач, включая создание объектов, настройку материалов, конфигурацию освещения, настройки рендеринга и иерархию сцен — Для домена автоматизации браузера 5 подзадач: бронирование билетов, спортивная аналитика, академические исследования, исследование платформы и навигация по карте — Для домена веб-поиска тоже 5: идентификацию человека, обнаружение сущностей, сопоставление метрик, сложные рассуждения и поиск фактов. Существенная часть задач требует больше 5 обращений к MCP-серверу, что подразумевает хорошую работу LLM с длинным контекстом. Результат работы оценивается по трём критериям: оценка формата, простая сверка ответа и динамическая. Последняя — это для запросов в духе «какая сегодня погода», так как ответ меняется из раза в раз. Авторы отсеивали задачи, которые LLM могут сделать без MCP серверов или если модель решает задачу 5 раз из 5 — они были слишком лёгкими.
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context…
Из этого канала
- #2800Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё…
Результаты — GPT-5 на первом месте с большим отрывом, но финальное качество всё равно меньше 50%.
- #2801Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами,…
Ещё интересно, что рассуждающие модели почему-то хуже справляются с задачами, где на ответ наложены ограничения по формату — там впереди нерассуждающие версии.
- #2802Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для…
Groq, Cerebras, Etched — компании, которые делают свои чипы взамен GPU для ускорения инференса LLM.
- #2798План миссии Flight 10. До старта ~ 13.5 часов. Четвёртый и предпоследний полёт…
План миссии Flight 10. До старта ~ 13.5 часов. Четвёртый и предпоследний полёт Starship из проблемного блока V2.
- #2797Обсуждал со знакомым релиз GPT-5, и он в попытках переубедить меня написал…
Обсуждал со знакомым релиз GPT-5, и он в попытках переубедить меня написал следующее: «Такое упражнение: отмотай на год назад и посмотри на свои ожидания от…