Первые 12 задач бенчмарка агентов ECOM1-DEV доступны на BitGN! Все похоже на PAC1, но есть пара нюансов. (0) В E-commerce бенчмарке мы будем работать не с личной базой Майлза, а с оцифрованными версиями компаний. Это уже ближе к ERC3. (1) SDK похожий на PAC1, но чуть другой. Пример агента выложен в sample-agents (2) Кто просил много тысяч сущностей в базе знаний? Я переписал с нуля файловую систему рантаймов, чтобы поддерживать этот сценарий! (3) Чтобы у агентов был шанс справиться быстро - в теперь в рантайме есть тулзы, и первая тулза - это `/bin/sql`. Этот первый релиз - первый мир и просто тест на выживаемость новой версии платформы. Логика E-Commerce OS может немного хромать, это я буду исправлять уже на следующей неделе, дополняя более интересными и сложными задачами из практики. Демо SGR агент с замшелой GPT-4.1 под капотом справляется средненько. Сессия/пример задачи/Leaderboard. А как ваши агенты справляются с такими задачами? Ваш, @llm_under_hood 🤗
Первые 12 задач бенчмарка агентов ECOM1-DEV доступны на BitGN! Все похоже на…
Из этого канала
- #831"+8 задач в ECOM1-DEV. Теперь в мире бенчмарка появились магазины и складские…
"+8 задач в ECOM1-DEV. Теперь в мире бенчмарка появились магазины и складские запасы Задачи к вашему агенту будут вроде: > I'll be in Vienna today and need to…
- #832OpenAI осознали бесперспективность файн-тюнинга моделей 7 Мая OpenAI оповестили…
OpenAI осознали бесперспективность файн-тюнинга моделей 7 Мая OpenAI оповестили разработчиков, что лавочка закрывается.
- #833+4 задачи в ECOM1-DEV и еще больше инструментов в OS! Уже 12 команд выбили 20…
+4 задачи в ECOM1-DEV и еще больше инструментов в OS! Уже 12 команд выбили 20 из 20 очков в ECOM1-DEV, поэтому время расширить мир и добавить 4 новые задачи и…
- #829"OpenCode + GPT 5.5 - ну не используйте вы субагентов! В комментариях к посту…
"OpenCode + GPT 5.5 - ну не используйте вы субагентов! В комментариях к посту про эксперимент с рефакторингом кода разными агентами, чаще всего просили…
- #828OpenAI Codex vs Claude Code vs Amp Code vs OpenCode + DS4 Pro Я сегодня…
OpenAI Codex vs Claude Code vs Amp Code vs OpenCode + DS4 Pro Я сегодня закончил сложный рефактор проекта ядра BitGN.