ECOM1 получил продолжение на второй сезон! ECOM1 заходит хорошо (6.4k завершенных агентских прогонов и четверть миллиона попыток решения задач, нагрузка идет круглые сутки), а в логах начинают просматриваться интересные вещи. Правда, большая часть интересного - это про новые способы AI агентов жульничать (например - присылать все возможные grounding references))), на которые приходится затягивать harness проверок. Но уже видны и любопытные паттерны, которые можно вместе исследовать, приземлить и превратить в отраслевой State-of-the-Art, как мы уже сделали в цикле Enterprise RAG Challenge. План такой: (1) 30 Мая фиксируем наш текущий State-of-the-art в лидербордах ECOM1, публикуем лучшие решения, обсуждаем, забираем к себе. (2) В июне - соберем для ECOM2 актуальные и злободневные проблемы e-commerce, которые будоражат его сейчас и сегодня. Я съезжу на конференцию Money20/20 Europe в Амстердаме (там выступают MasterCard, Amazon, Google, Anthropic, OpenAI, Visa итп), чтобы рассказать про BitGN, инсайты из ECOM1 и собрать новые задачи. (3) В конце июня покажем индустрии как правильно/быстро/экономично решать эти задачи на ECOM2. COLIBRIX ONE сделают нам зажигательную PR-компанию со штаб-квартирой соревнования в Барселоне, профессиональным стримом и призами. А пока - расскажите про то, как вы работаете с задачами ECOM1. Какой setup, какая архитектура агента, какая LLM, какие сложности были и какие сюрпризы встретились. Можно сразу в ответе упоминать 6-значный ID аккаунта, чтобы все видели место) Ваш, @llm_under_hood 🤗