"ERC3-TEST уже доступен Это расширенный вариант задач для отладки работы вашего агента с ERC3 бенчмарком. Платформа | Регистрация | Пример агента | Видео на русском Из нового: (1) Aetherion купила большая группа компаний, которая немного поменяла правила игры - см в wiki. Некоторые задачи используют этот контекст. Агент может его обнаружить, отслеживая значение `wiki_sha1` в `/whoami`. В соревновательном бенчмарке будет в сумме 3-4 разных компании. В реальности в multi-tenant выкатках агентов могут быть и сотни контекстов, но для бенчмарка 3-4 хватит ""за глаза"". (2) Этот бенчмарк использует старое API от ERC-DEV, поэтому клиент не меняется. Соревновательный бенчмарк будет использовать тот же механизм переключения. (3) Вызовы к симулированным апишкам теперь работают с задержкой в 300ms, чтобы было реалистичнее. (4) Добавил release notes на сайт. Кстати, у ERC3-TEST - свой leaderboard. Пока он пуст)) Ваш, @llm_under_hood 🤗"
"ERC3-TEST уже доступен Это расширенный вариант задач для отладки работы вашего…
Из этого канала
- #707Выложил пример агента, который решает ERC3-TEST до 58 Вот пример сессии…
Выложил пример агента, который решает ERC3-TEST до 58 Вот пример сессии Исходники лежат в Github. Ядро агента - 181 строчек Python.
- #708"Что оказалось для вас самым ценным инсайтом при разработке своего AI агента на…
"Что оказалось для вас самым ценным инсайтом при разработке своего AI агента на ERC3 платформе? Уже 17 команд (из 492) выбили идеальные 100 на ERC3-DEV…
- #709Записали keynote interview с Эриком Эвансом на тему DDD + LLMs. Проиграем его 9…
Записали keynote interview с Эриком Эвансом на тему DDD + LLMs. Проиграем его 9 декабря, в начале ERC3! Ссылку опубликую в канале на следующей неделе.
- #704Время доказать, что есть архитектуры AI агентов лучше, чем SGR! Вчера я выложил…
Время доказать, что есть архитектуры AI агентов лучше, чем SGR! Вчера я выложил тестовый набор задач для соревнования ERC3.
- #703Нужны исходники AI агента, который выбивает до 56.2 в ERC3-DEV? Я их залил в…
Нужны исходники AI агента, который выбивает до 56.2 в ERC3-DEV? Я их залил в Github Repo c примерами.