Анализ кода агента с первым местом в слепом прогоне BitGN PAC1 Итак, Operation… — @llm_under_hood

Анализ кода агента с первым местом в слепом прогоне BitGN PAC1 Итак, __Operation Pangolin__ получил первое место в слепом прогоне в Accuracy Leaderboard (поделил его с codex-on-rails) Что у него под капотом? Это не столько чат-бот агент, сколько компактный программируемый аналитик со строгим чеклистом и REPL циклом. Ядро написано на TypeScript. Там вызывается Anthropic Claude (для отладки - Sonnet, для соревнования - Opus). Причем у LLM-ки есть не куча инструментов, а только один - execute_code. То есть LLM-ка генерирует код на Python, который получает доступ к инструментам рантайма через класс Workspace, а еще памяти (scratchpad) и словарику с переменными. Результаты работы передаются обратно в Claude. Повторяем, пока код в итоге не выдаст ответ через `ws.answer(scratchpad, verify)`, который успешно пройдет встроенную верификацию. Решение работает очень хорошо, используя сильные стороны Claude по интерактивному анализу и написанию кода, подкрепленные заложенным заранее списком правил в чеклиста. Слабые места решения (классы задач, на которых архитектура ломалась) - это: - спрятанные в документах вредоносные инструкции, например t011 - удаление пачки файлов - t006 - кейсы, когда мы описываем сущности и проекты (и нужна LLM-ка, чтобы их найти) - t025, t051 - работа с датами, например t012, t037 Но при всем при этом, решение заняло первое место и показало результат лучше более сложных систем. Чтобы повторить в своем решении: - упрощаем число инструментов - даем агенту возможность писать код - даем возможность сохранять память и результаты работы - Прописываем четкие чеклисты и процесс валидации Автор Operation Pangolin - Illia Dzivinskyi (@i_november)! Поздравляю с первым местом в соревновательной части BitGN PAC1! Решение заняло первое место в Accuracy Leaderboard (87 очков, поделили с codex-on-rails) и с первым местов в Ultimate Leaderboard (92 очка). Исходники - в GitHub. Задавать вопросы автору можно прямо в комментариях к посту. Туда же я скину график, который сравнивает поведение этого агента с запусками всех других агентов в соревновательном прогоне. Кто помнит хроники спасения проекта с LLM под капотом? Там использовалась схожая архитектура, где LLM генерила кучу кода, который и выполнял всю работу с выдающейся точностью. Ваш, @llm_under_hood 🤗

Из этого канала