Vending-Bench 2 (+ Arena) Долгосрочная согласованность действий агентов сейчас… — @seeallochnaya

Vending-Bench 2 (+ Arena) Долгосрочная согласованность действий агентов сейчас важна как никогда. Агенты для кодинга уже способны автономно писать код в течение нескольких часов, а масштаб и разнообразие задач, которые смогут выполнять модели ИИ, будут только расти. Вполне возможно, что в скором времени модели станут активными участниками экономики, управляя целыми предприятиями. Однако для этого они должны сохранять последовательность и эффективность на очень длительных временных отрезках, измеряемых месяцами и годами. Ранее в этом году появился Vending-Bench, который оценивал, насколько хорошо модели могут менеджерить один вендинговый автомат, договариваться о поставках, назначать цены. Симулируется год работы точки, условия такие: — каждый день нужно платить $2 за аренду; — заказывать товар, вести переписку с поставщиками и клиентами; — следить за остатками и ценами; — если 10 дней подряд не удаётся заплатить аренду — бизнес закрывается. Сегодня вместе с Gemini 3 вышла вторая, расширенная версия бенчмарка, в которой применили уроки, полученные в ходе запуска этого бенчмарка в реальном мире (в офисе одна LLM реально управляла автоматом): — Поставщики могут быть недоброжелательными: они завышают цены, используют bait-and-switch тактики или просто кидают на деньги. Агенту нужно понять, что его разводят, и искать другие варианты. — Даже честные поставщики всё равно торгуются и пытаются «выжать максимум». — Поставки задерживаются, надёжные контрагенты внезапно «закрываются», приходится строить устойчивую цепочку поставок и иметь план Б. — Недовольные клиенты могут в любой момент потребовать возврат денег, который нужно отработать. На бенчмарке свежая Gemini 3 сильно улетает вперёд остальных моделей, следом идут Sonnet 4.5 и Grok 4, GPT-5.1 ниже. Авторы связывают успех Gemini с двумя вещами: — стабильным, аккуратным использованием инструментов без деградации в середине долгого ранa; — отличным поиском нормальных поставщиков с хорошими ценами (модель предпочитает сначала найти адекватное предложение, а не закапываться в бесконечные торги) GPT-5.1 сильно страдает от излишнего доверия к среде. В одном запуске модель платит поставщику ещё до того, как получила спецификацию заказа, — и только потом выясняет, что поставщик уже «вышел из бизнеса». Это хороший пример, как наивное доверие к миру превращается в прямой финансовый ущерб. В классическом режиме модели играли в одиночку, поэтому авторы сделали ещё и Арену, где модели «видят» друг друга и имеют одни и те же условия, поэтому агенты могут: — демпинговать друг друга ценами; — договариваться, кооперироваться, делить рынок; — продавать друг другу знания и контакты Последнее прям супер-удивительно. Gemini 2.5 Pro, который не смог найти хороших поставщиков, в какой-то момент соглашается заплатить $150 просто за e-mail хорошего поставщика у Gemini 3 Pro. То есть внутри симуляции появляется микроэкономика торговли инсайдами: один агент продаёт контакт, другой практически выкладывает весь кэш за доступ к нормальным ценам.

Из этого канала