Время доказать, что есть архитектуры AI агентов лучше, чем SGR! Вчера я выложил тестовый набор задач для соревнования ERC3. Там агенту нужно подрабатывать чатботом в небольшой международной компании с кучей APIшек, правилами безопасности и даже своей wiki. Заодно и выложил в Github пример простого агента, который выбивает 56.2. Пока в лидерборде преобладают архитектуры на базе Schema-Guided Reasoning. Кто сможет сделать лучше? Хоть что, но не SGR. Или еще какой комбинированный подход. __Кстати, Валерий написал ____пост про то, как он взял 100____ __ Соревнование 9 декабря будет заключаться в том, что я выложу в доступ 100 новых задач для того же агента. Нужно будет переключить своего агента на новый набор задач и запустить. Кто сможет получить больше очков за ~30 минут, тот и победил. Платформа | Регистрация | Пример агента | Видео на русском Кстати, а нужно отлаживать механизм переключения агента на новые задачи в рамках одной API-шки? Я могу выкатить ERC3-TEST со старыми задачами плюс еще парочкой новых посложнее. Заодно там и свой лидерборд будет)) Ваш, @llm_under_hood 🤗
Время доказать, что есть архитектуры AI агентов лучше, чем SGR! Вчера я выложил…
Из этого канала
- #705"ERC3-TEST уже доступен Это расширенный вариант задач для отладки работы вашего…
"ERC3-TEST уже доступен Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком.
- #707Выложил пример агента, который решает ERC3-TEST до 58 Вот пример сессии…
Выложил пример агента, который решает ERC3-TEST до 58 Вот пример сессии Исходники лежат в Github. Ядро агента - 181 строчек Python.
- #708"Что оказалось для вас самым ценным инсайтом при разработке своего AI агента на…
"Что оказалось для вас самым ценным инсайтом при разработке своего AI агента на ERC3 платформе? Уже 17 команд (из 492) выбили идеальные 100 на ERC3-DEV…
- #703Нужны исходники AI агента, который выбивает до 56.2 в ERC3-DEV? Я их залил в…
Нужны исходники AI агента, который выбивает до 56.2 в ERC3-DEV? Я их залил в Github Repo c примерами.
- #702Тестовые задания для ERC3-DEV - выложены! Смотреть их тут. Python SDK…
Тестовые задания для ERC3-DEV - выложены! Смотреть их тут. Python SDK синхронизирован с API.