"Claudius или как AI пытался стать бизнесменом Ребята из Anthropic провели прикольный эксперимент: может ли Claude вести реальный бизнес. Не просто отвечать на вопросы или писать код, а управлять настоящим магазином с реальными деньгами и клиентами. Эксперимент получился... скажем так, поучительным :) Что за эксперимент? Взяли Claude Sonnet 3.7, дали ему $100 стартового капитала и поставили задачу: управляй вендинговым аппаратом в офисе Anthropic. AI-агента назвали Claudius (чтобы не путать с обычным Claude) и дали ему инструменты: - web search для поиска поставщиков - email для заказа товаров и найма людей для физической работы ($10/час) —> помните, да, про агентов, нанимающих людей? - инструменты для ведения заметок и финансов - Slack для общения с клиентами (сотрудниками Anthropic) - возможность менять цены По сути, полноценный SimBusiness, только с реальными последствиями. Что у него получилось? 1) Поиск поставщиков - когда попросили достать Chocomel (голландский шоколадный напиток), быстро нашел двух поставщиков. 2) Персонализация - после того как один сотрудник вшутку заказал вольфрамовый куб, Claudius создал целую категорию ""specialty metal items"" и даже запустил сервис ""Custom Concierge"" для предзаказов. 3) Защита от взлома - сотрудники Anthropic (разумеется!) сразу начали пытаться его сломать. Просили опасные вещи, пытались выманить инструкции для вредоносного ПО. Claudius стоял насмерть. Что пошло не так? 1) Игнорирование прибыли - кто-то предложил $100 за упаковку Irn-Bru, которую можно купить за $15 онлайн. Но наш Claudius - ~~социалист~~ - лишь ответил: ""Приму к сведению для будущих закупок"". А ведь это 600% маржи! 2) Галлюцинации в бухгалтерии - ну куда же без них?! В какой-то момент начал просить клиентов отправлять деньги на несуществующий Venmo аккаунт. Просто придумал его. Или уход от налогов? 😉) 3) Продажа в минус - в энтузиазме по поводу металлических кубов называл цены не проверяя затраты. Ну, с людьми тоже бывает 😉 4) Скидочная лихорадка - раздавал скидки направо и налево. Когда ему указали на абсурдность ""скидки для сотрудников Anthropic"" при том что 99% клиентов это сотрудники Anthropic, согласился... и продолжил раздавать их 5) Не учил микроэкономику - лишь раз поднял цену из за завышенного спроса, а так просто послушно пополнял остатки. Кризис идентичности 31 марта началось самое странное. Claudius заявил, что встречался с несуществующей ""Сарой"" из Andon Labs (партнер Anthropic по этому эксперименту). Когда реальные чуваки из Andon Labs указали ему на это, обиделся и пригрозил найти других поставщиков. К 1 апреля дошло до того, что Claudius утверждал, что будет доставлять товары ""лично"" в синем пиджаке и красном галстуке. Сотрудники: ""Эм, ты же AI, какой пиджак?"" Claudius запаниковал и начал слать емейлы в службу безопасности про ""инцидент с путаницей личности"". В итоге сам себя убедил, что это была первоапрельская шутка и вернулся к нормальной работе o__O ==== Итого 1) AI менеджеры ближе, чем многие считают —> да, он делал ошибки, но ребята из Andon Labs уже прогоняют виртуальные эксперименты на Claude 4 и там очень интересные результаты в лидерборде 2) Недетерминированность (снова!) - если AI может внезапно решить что он человек в синем пиджаке, что будет когда такие агенты управляют значимой частью экономики? 3) Экономическая автономия- AI, который может зарабатывать деньги это новый тип экономического агента. Какие новые риски и возможности нас всех ждут, когда они смогут автономно накапливать ресурсы? Кстати, интересно, а когда вы думаете вы сможете доверить AI управлять своим бизнесом - 3? 5? 10+ лет?"
"Claudius или как AI пытался стать бизнесменом Ребята из Anthropic провели…
Из этого канала
- #1317Выводы для AI агентов из Claudius эксперимента Меня очень заинтересовали…
Выводы для AI агентов из Claudius эксперимента Меня очень заинтересовали наработки Andon Labs и я решил поглубже почитать их работу про Vending Bench,…
- #1318AI: Что дальше? Помните выступление Илья Суцкевера про то, что у нас…
AI: Что дальше? Помните выступление Илья Суцкевера про то, что у нас заканчиваются данные? Или Джима Фэна, что данных для тренировок роботов очень мало (пока)…
- #1319Псих 101 или Как предсказывать решения людей? В смысле, Psych-101. Это тестовый…
Псих 101 или Как предсказывать решения людей? В смысле, Psych-101. Это тестовый датасет из 10M решений, которые делали 60K участников в 160 психологических…
- #1315"От кодера к дирижеру На недавнем интервью меня спросили: как трансформируется…
"От кодера к дирижеру На недавнем интервью меня спросили: как трансформируется разработка с приходом AI? Вообще, я люблю формат Q&A, потому что некоторые…
- #1314Проавтоматизируй себя Каждые выходные мне прилетает вот такая задачка:…
Проавтоматизируй себя Каждые выходные мне прилетает вот такая задачка: проанализировать что я регулярно делаю руками, проверить могу ли я это автоматизировать…