Бенчмарк LLM и агентских подходов - будет На прошлой неделе я начал… — @llm_under_hood

Бенчмарк LLM и агентских подходов - будет На прошлой неделе я начал разрабатывать среду для тестирования агентов (AGES - Agentic Enterprise Simulation). Она пригодится и для нового бенчмарка бизнес-агентов, и для соревнования ERC3, и просто как способ системно сравнить эффективность работы разных решений. SGR vs SGR in FC vs FC и тому подобное. Для агентов и пользователей эта среда будет выглядеть как API-шка, куда можно постучаться и сказать “дай мне следующее задание для моего агента/чатбота”. Например: У клиента появился новый проект, который нужно оценить. Найди мне из сотрудников ребят, которые свободны на 4 часа на неделе (продакт, ML Engineer, эксперт в маркетинге), забукай им календари на созвон с клиентом, вышли всем инвайт И для выполнения агенту нужно будет подергать другие API: - DirectoryAPI - чтобы получить список сотрудников со скиллами - CalendarAPI - чтобы подобрать слот, когда они одновременно свободны - EmailAPI - чтобы выслать инвайт Все API будут опубликованы заранее, как и их схема. Заодно сделаем Python SDK, чтобы можно было удобно вызывать прямо из кода. Задача AGES - заполнить заранее базу тестовыми данными, чтобы API-шки выдавали осмысленные данные, выдать задание, а потом сказать, было выполнено задание правильно или нет. Результаты работы каждого агента логгируются, оцениваются и потом выводятся на общий dashboard. Если агента допиливают - можно будет сравнить результаты разных запусков. Что под капотом у агентов - не важно. Главное, чтобы задача была выполнена. Но командам нужно будет заполнить для каждого нового агента небольшой опросник (как в прошлых ERC), чтобы мы могли видеть, какие подходы работают с какими моделями, и насколько хорошо. Вопросы (1) Код будет открыт? API AGES будет доступно всем. А после завершения ERC3 - я выложу все исходники в публичный доступ, чтобы каждый мог запустить его у себя или подкрутить под свои нужды. (2) Какие будут API-шки? Пока это секрет в процессе разработки. Мне нужно выдержать баланс между релевантностью и интересом. Если сделать слишком реалистично и сложно - не соберем 300 команд, как это было в ERC2. Если сделать слишком просто - то результаты будут не такие интересные, а серьезные команды отвалятся. А если сделать слишком серьезно, то придет только один enterprise без стартапов и команд с горящими глазами. (3) А ведь одно задание может быть выполнено дерганьем API в разном порядке! Да, я знаю. В ситуации с несколькими решениями, допустимо любое решение. (4) Нужно ли будет агенту создавать новые инструменты на лету? Если хочется, то можно. Не все API-шки будут очень простыми (корпорация, таки), но если их обернуть кодом - жизнь может LLM-ке упроститься. (5) Я хочу протестировать своего RPA, можно мне не через API, a через UI? Да, это можно. Решение задач через web-интерфейс будет отслеживаться в отдельной категории автоматически. (6) Можно ли запускать несколько агентов параллельно? Да хоть сколько. У каждого будет своя изолированная симуляция. (7) А что там под капотом? Golang / event sourcing / Discrete event simulation / много тестов и AI+Coding. (8) Когда? Финальный раунд ERC3 будет осенью/зимой. Но среду выставить наружу для запуска экспериментов я хочу уже скоро, чтобы поскорее начать ее отлаживать. Спонсор всего этого веселья - TimeToAct Austria. Мотиватор для именно этого поста - энергетика и движуха вокруг проекта SGR Deep Research и последнее сравнение SGR vs Function Calling. Задача AGES - упростить такие сравнения и систематизировать их, предоставив общую базу для сравнений. Еще привлечь больше команд со всего мира, структурировать результаты и рассказать про них, чтобы вместе продвинуть State-of-the-Art еще на один шажок вперед. Погнали?) Ваш, @llm_under_hood 🤗

Из этого канала