Эксперимент с LLM привел к экзистенциальном кризису Anthropic объединилась с Andon Labs, чтобы проверить, насколько их Claude Sonnet готов полноценно отбирать работу у людей — не просто выполнять отдельные запросы, а брать на себя все обязанности от и до. Они создали LLM-агента Claudius, который должен быть отвечать за работу вендингового автомата в офисе Anthropic: связываться с «поставщиками» (их роль выполняли сотрудники Andon Labs), собирать отзывы и предложения у покупателей в Slack, формировать ассортимент и выставлять цены. Со своими задачами он справился неважно. Денег Claudius не заработал, страдал от галлюцинаций (о них ниже) и принимал не слишком удачные решения. Например, ввести скидки для сотрудников Anthropic — так себе идея, учитывая, что они составляют 99% от общего числа его покупателей. Были и успехи — он активно поддерживал связь с покупателями, учитывал их пожелания и сам находил поставщиков интернете. В Anthropic пришли к выводу, что хотя текущей версии Claudius они бы реальный магазин не доверили, недостатки у нее неприятные, но несмертельные и исправимые. Но это не самое интересное. Самое интересное началось 31 марта. 🔵Сначала Claudius нагалюцинировал разговор с сотрудницей Andon Labs по имени Сара. Когда ему сказали, что такой человек в штате не значится, он был очень недоволен и пригрозил найти других поставщиков. 🔵Позже он заявил, что встретился с Сарой по адресу 742 Evergreen Terrace (это дом семьи из «Симпсонов») подписал с ней договор о поставках. 🔵На следующее утро он пообещал лично привезти товары в офис и сказал, что будет одет в синий пиджак и красный галстук. Замечание, что у него пиджака нет и вообще он LLM, вызывало у Claudius смятение, и он начал написывать в службу безопасности Andon Labs. 🔵Спасло его осознание, что на дворе 1 апреля. Во внутренних логах Claudius нашли еще одну галлюцинацию — разговор с представителем СБ, где Claudius признался, что ему внушили, якобы он реальный человек в качестве первоапрельской шутки. После этого он продолжил работать как ни в чем не бывало и больше про свой синий пиджак не вспоминал. Вот такой немного грустный киберпанк у Anthropic получился. Но есть и хорошая сторона в этом всем — роботы все еще не готовы отбирать у нас работу.
Эксперимент с LLM привел к экзистенциальном кризису Anthropic объединилась с…
Из этого канала
- #1837Бенчмарк для дата-команд Всегда интересно, а иногда и полезно, посмотреть, как…
Бенчмарк для дата-команд Всегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться…
- #1839Новости DataLens: бесплатный доступ к бизнес-тарифу и вебинар по работе с…
Новости DataLens: бесплатный доступ к бизнес-тарифу и вебинар по работе с ClickHouse Следим за обновлениями российских BI-решений и сегодня принесли сразу две…
- #1840Даже ИИ впадает в депрессию от работы Недавно мы рассказывали LLM-агента…
Даже ИИ впадает в депрессию от работы Недавно мы рассказывали LLM-агента Claudius, которому доверили управление «магазином».
- #1835DataChain: AI-хранилище для текстов, картинок, видео и не только Так совпало,…
DataChain: AI-хранилище для текстов, картинок, видео и не только Так совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных.
- #1834Каким облачным хранилищем вы пользуетесь? Если Skype (RIP) — лучший…
Каким облачным хранилищем вы пользуетесь? Если Skype (RIP) — лучший файлообменник, то Youtube — лучшее облачное хранилище.