Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK тоже все есть - см. версию 1.0.5 Этот бенчмарк моделирует системы целой компании для запуска в них AI Агента. Они моделированы аналогично тому, как в компаниях и внедряются агенты, только без риска что-то сломать. Можно смотреть на API и играться с ним. В описании бенчмарка есть ссылка на то, куда надо копать и смотреть, чтобы понять, что это вообще за компания, и как положено агенту работать с ней. Да, там в API затерялась и knowledge base, как в настоящем AI agent deployment в корпорации. Уже есть пара тестовых заданий для ERC3-DEV, чтобы начать представлять себе масштабы). К пятнице я закончу набор API и выложу 15 тестовых заданий c включенным evaluation. Сразу предупреждаю, не привязывайтесь слишком к компании Aetherion Analytics Gmb. Это будет только одна из компаний в финальном бенчмарке. Что скажете? Остальные задания делать проще или реалистичнее? Ваш, @llm_under_hood 🤗 Ссылки: Платформа | Регистрация | Пример агента | Видео на русском Официальное соревнование состоится 9 декабря, но люди соревнуются на STORE бенчмарке уже сейчас.
Я доделал основную часть симуляции для ERC3 и выкатил API на проду! В PythonSDK…
Из этого канала
- #700"Кейс про выбор правильного тендера, с ужасным стэком Иногда можно слышать про…
"Кейс про выбор правильного тендера, с ужасным стэком Иногда можно слышать про то, что AI проекты - это что-то сложное, дорогое, требует кучу денег, времени, а…
- #701"Как решить проблему SO с Invalid JSON в OpenAI SDK? В чате моего курса…
"Как решить проблему SO с Invalid JSON в OpenAI SDK? В чате моего курса (https://abdullin.com/ai-assistants-course) напомнили, что OpenAI так и не пофиксили…
- #702Тестовые задания для ERC3-DEV - выложены! Смотреть их тут. Python SDK…
Тестовые задания для ERC3-DEV - выложены! Смотреть их тут. Python SDK синхронизирован с API.
- #698Мелкий апдейт на платформе ERC Пока еще не ERC3 бенчмарк, просто подготовка к…
Мелкий апдейт на платформе ERC Пока еще не ERC3 бенчмарк, просто подготовка к его выкладке (1) Если при отправке решения не была прислана телеметрия вызовов…
- #697Бенчмарк LLM в ERC3: AI Agents Вот график лучших решений ERC3 в бенчмарке…
Бенчмарк LLM в ERC3: AI Agents Вот график лучших решений ERC3 в бенчмарке Store, где архитектуры ранжированы по стоимости запуска и времени исполнения.