Первые 12 задач бенчмарка агентов ECOM1-DEV доступны на BitGN! Все похоже на PAC1, но есть пара нюансов. (0) В E-commerce бенчмарке мы будем работать не с личной базой Майлза, а с оцифрованными версиями компаний. Это уже ближе к ERC3. (1) SDK похожий на PAC1, но чуть другой. Пример агента выложен в sample-agents (2) Кто просил много тысяч сущностей в базе знаний? Я переписал с нуля файловую систему рантаймов, чтобы поддерживать этот сценарий! (3) Чтобы у агентов был шанс справиться быстро - в теперь в рантайме есть тулзы, и первая тулза - это `/bin/sql`. Этот первый релиз - первый мир и просто тест на выживаемость новой версии платформы. Логика E-Commerce OS может немного хромать, это я буду исправлять уже на следующей неделе, дополняя более интересными и сложными задачами из практики. Демо SGR агент с замшелой GPT-4.1 под капотом справляется средненько. Сессия/пример задачи/Leaderboard. А как ваши агенты справляются с такими задачами? Ваш, @llm_under_hood 🤗