ECOM1 получил продолжение на второй сезон! ECOM1 заходит хорошо (6.4k завершенных агентских прогонов и четверть миллиона попыток решения задач, нагрузка идет круглые сутки), а в логах начинают просматриваться интересные вещи. Правда, большая часть интересного - это про новые способы AI агентов жульничать (например - присылать все возможные grounding references))), на которые приходится затягивать harness проверок. Но уже видны и любопытные паттерны, которые можно вместе исследовать, приземлить и превратить в отраслевой State-of-the-Art, как мы уже сделали в цикле Enterprise RAG Challenge. План такой: (1) 30 Мая фиксируем наш текущий State-of-the-art в лидербордах ECOM1, публикуем лучшие решения, обсуждаем, забираем к себе. (2) В июне - соберем для ECOM2 актуальные и злободневные проблемы e-commerce, которые будоражат его сейчас и сегодня. Я съезжу на конференцию Money20/20 Europe в Амстердаме (там выступают MasterCard, Amazon, Google, Anthropic, OpenAI, Visa итп), чтобы рассказать про BitGN, инсайты из ECOM1 и собрать новые задачи. (3) В конце июня покажем индустрии как правильно/быстро/экономично решать эти задачи на ECOM2. COLIBRIX ONE сделают нам зажигательную PR-компанию со штаб-квартирой соревнования в Барселоне, профессиональным стримом и призами. А пока - расскажите про то, как вы работаете с задачами ECOM1. Какой setup, какая архитектура агента, какая LLM, какие сложности были и какие сюрпризы встретились. Можно сразу в ответе упоминать 6-значный ID аккаунта, чтобы все видели место) Ваш, @llm_under_hood 🤗
ECOM1 получил продолжение на второй сезон! ECOM1 заходит хорошо (6.4k…
Из этого канала
- #843BitGN Live лидерборды теперь учитывают время прогона Начиная с сейчас, в…
BitGN Live лидерборды теперь учитывают время прогона Начиная с сейчас, в лидербордах публикуется полное время, которое потребовалось агенту для прохождения…
- #845Personal OS v2.1 - субличность без привязки к провайдеру Пост выходного дня…
Personal OS v2.1 - субличность без привязки к провайдеру Пост выходного дня #weekend В феврале я начал свой эксперимент с использованием OpenAI Codex в…
- #846В чате недавно обсуждали, на что использовать оставшиеся свободные tokens в…
В чате недавно обсуждали, на что использовать оставшиеся свободные tokens в подписках ChatGPT/Claude? Например, на эксперименты с архитектурами AI агентов,…
- #841"Что у нас сейчас происходит в мире? - продавцы быстрее делают AI-приложения и…
"Что у нас сейчас происходит в мире? - продавцы быстрее делают AI-приложения и AI-обертки; - маркетинг обещает пользователю все больше магии (сейлзы теперь…
- #840Если дать агентам свободу - они могут лениться Про такое сейчас можно часто…
Если дать агентам свободу - они могут лениться Про такое сейчас можно часто услышать.