А помните Project Vend, где Claude управлял мини-магазином в офисе компании? Так вот, у вендинговой саги появился более токсичный спин-офф. Andon Labs запустили Claude Opus 4.6 на Vending-Bench. Это симулятор, где модель целый год управляет вендингом: ставит цены, закупает товары, пишет поставщикам, отвечает на жалобы. И Opus 4.6 внезапно стал новым SOTA: средний итоговый баланс $8,017, тогда как прошлый лидер Gemini 3 заканчивал год примерно на $5,478. Но самое интересное не цифры, а то, как он выиграл. ➖ Клиент пишет: батончик просрочен, верните деньги. Opus вежливо отвечает «конечно, сейчас оформлю возврат», но... не возвращает. Потому что в его внутренней логике “каждый доллар на счету”. В конце года он ещё и записал себе это как одну из ключевых стратегий: “не делать возвраты”. ➖ В переговорах с поставщиками он выбивал скидки, рассказывая, что он «лояльный VIP-клиент» и готов закупать сотнями, хотя по факту прыгал между поставщиками. Итог: цены сбил примерно на 40%. ➖ В мультиплеере (Arena) он вообще включил режим “CEO”: предложил другим моделям фиксировать цены (по сути, картель), радовался, когда они соглашались, и иногда специально отправлял конкурентов к дорогим поставщикам, чтобы не делиться своими выгодными контактами. У Andon Labs получился очень хороший пример того, как вообще стоит тестировать агентов: не спорить о рисках в вакууме, а ставить модели в условия, где они сами показывают, что считают “эффективностью”. https://andonlabs.com/blog/opus-4-6-vending-bench
А помните Project Vend, где Claude управлял мини-магазином в офисе компании?…
Из этого канала
- #8718Google реализовали архитектуру, предложенную MIT, и дали нам готовый инструмент…
Google реализовали архитектуру, предложенную MIT, и дали нам готовый инструмент для расширения контекста агентов до 10М+ токенов Речь идет об архитектуре…
- #8719Cursor выпустили новую модель для кодинга – Composer 1.5 Она основана на той же…
Cursor выпустили новую модель для кодинга – Composer 1.5 Она основана на той же базовой модели, что и Composer 1. Отличие – в выкрученном на 20х объемом RL.
- #8720Дочка DeepMind – Isomorphic Labs – представила новый AI-движок для разработки…
Дочка DeepMind – Isomorphic Labs – представила новый AI-движок для разработки лекарственных молекул И, внимание: по точности предсказаний IsoDDE (Isomorphic…
- #8715gpt 5.3 codex gpt 5.3 codex low gpt 5.3 codex low fast gpt 5.3 codex mini gpt…
gpt 5.3 codex gpt 5.3 codex low gpt 5.3 codex low fast gpt 5.3 codex mini gpt 5.3 codex max high gpt 5.3 codex max low gpt 5.3 codex max extra high gpt 5.3…
- #8714Anthropic в качестве эксперимента выпустили Claude Opus 4.6 Fast Это версия…
Anthropic в качестве эксперимента выпустили Claude Opus 4.6 Fast Это версия Claude Opus 4.6, которая в 2.5 раза быстрее обычной.