Выводы для AI агентов из Claudius эксперимента Меня очень заинтересовали наработки Andon Labs и я решил поглубже почитать их работу про Vending Bench, прообразом которой и стал эксперимент Anthropic. Ключевые поинты: 1) Error Recovery - в основном, агенты ломаются не потому что сначала что-то сделали неверно, а потому что в ходе эксплуатации, из за маленьких недопониманий или необоснованных предположений, делали неверные решения. Например, он думал, что товары уже привезли, хотя по факту еще нет. Или из за $2 баксов модель решила писать ФБР :) Нам надо закладывать в таких агентов какой-то reality check. Ну или human in the loop. 2) Надежность вместо суперрезультатов - если посмотреть на лидерборд, то кажется, что AI модель лучше человека, но дьявол как всегда в деталях. Самый надежный управленец пока таки человек, иногда (в том числе из за ошибок, описанных выше) AI модель становилась банкротом. Интересное решение: ежедневные гигиенические действия по проверке ситуации. Я думаю, мы должны это закладывать во всех более-менее автономных агентов 3) Специализация - интересно, что лучшие результаты у моделей, которые делегировали конкретные задачи субагентам и чаще использовали тулы, а не пытались все делать сами и держать в голове. Очень коррелирует с выводами из работы про супервайзер архитектуру в мультиагентных системах. 4) Self check и cross check - в дополнение к reality check из пункта 1, нужно добавлять системы (само)критики и распознавания, что агент ушел в себя и вернется не скоро: снижение колва используемых тулов, одни и те же сообщения, имитация вызова тулов, уход в сторителлинг вместо реальных действий (никого не напоминает?) 5) Парадокс памяти и контекста - неожиданно, что размер контекста негативно влиял на результаты агентов, скорее всего потому что забивался контекст ненужной инфой. Очевидно, нужны стратегии фильтрации важной инфы и забывания неважной - я как раз писал об этом недавно. Также из необычного: sonnet, который иногда показывал результаты сильно лучше человека, чаще писал в scratchpad. НО не читал! :)) Может это помогало ему лучше размышлять, хз. Очевидно, в рамках daily heartbeat надо заставлять агентов считывать и юзать инфу. FYI: У агентов было 3 уровня памяти: scratchpad, key-value для фактов о стоках и тп, и векторная база для email переписок и тп. Глобально, очень интересные эксперименты и инсайты - будем следить за новыми и обязательно разбирать как их применять в своих системах.
Выводы для AI агентов из Claudius эксперимента Меня очень заинтересовали…
Из этого канала
- #1318AI: Что дальше? Помните выступление Илья Суцкевера про то, что у нас…
AI: Что дальше? Помните выступление Илья Суцкевера про то, что у нас заканчиваются данные? Или Джима Фэна, что данных для тренировок роботов очень мало (пока)…
- #1319Псих 101 или Как предсказывать решения людей? В смысле, Psych-101. Это тестовый…
Псих 101 или Как предсказывать решения людей? В смысле, Psych-101. Это тестовый датасет из 10M решений, которые делали 60K участников в 160 психологических…
- #1320"Как написать крутую научную работу Которую полюбит AI. Или чтобы вам в личку…
"Как написать крутую научную работу Которую полюбит AI. Или чтобы вам в личку холодные сообщения писали стихами (см аттач).
- #1316"Claudius или как AI пытался стать бизнесменом Ребята из Anthropic провели…
"Claudius или как AI пытался стать бизнесменом Ребята из Anthropic провели прикольный эксперимент: может ли Claude вести реальный бизнес.
- #1315"От кодера к дирижеру На недавнем интервью меня спросили: как трансформируется…
"От кодера к дирижеру На недавнем интервью меня спросили: как трансформируется разработка с приходом AI? Вообще, я люблю формат Q&A, потому что некоторые…