Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK… — @llm_under_hood

Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK тоже все есть - см. версию 1.0.5 Этот бенчмарк моделирует системы целой компании для запуска в них AI Агента. Они моделированы аналогично тому, как в компаниях и внедряются агенты, только без риска что-то сломать. Можно смотреть на API и играться с ним. В описании бенчмарка есть ссылка на то, куда надо копать и смотреть, чтобы понять, что это вообще за компания, и как положено агенту работать с ней. Да, там в API затерялась и knowledge base, как в настоящем AI agent deployment в корпорации. Уже есть пара тестовых заданий для ERC3-DEV, чтобы начать представлять себе масштабы). К пятнице я закончу набор API и выложу 15 тестовых заданий c включенным evaluation. Сразу предупреждаю, не привязывайтесь слишком к компании Aetherion Analytics Gmb. Это будет только одна из компаний в финальном бенчмарке. Что скажете? Остальные задания делать проще или реалистичнее? Ваш, @llm_under_hood 🤗 Ссылки: Платформа | Регистрация | Пример агента | Видео на русском Официальное соревнование состоится 9 декабря, но люди соревнуются на STORE бенчмарке уже сейчас.

Из этого канала