Анализ кода агента с первым местом в слепом прогоне BitGN PAC1 Итак, __Operation Pangolin__ получил первое место в слепом прогоне в Accuracy Leaderboard (поделил его с codex-on-rails) Что у него под капотом? Это не столько чат-бот агент, сколько компактный программируемый аналитик со строгим чеклистом и REPL циклом. Ядро написано на TypeScript. Там вызывается Anthropic Claude (для отладки - Sonnet, для соревнования - Opus). Причем у LLM-ки есть не куча инструментов, а только один - execute_code. То есть LLM-ка генерирует код на Python, который получает доступ к инструментам рантайма через класс Workspace, а еще памяти (scratchpad) и словарику с переменными. Результаты работы передаются обратно в Claude. Повторяем, пока код в итоге не выдаст ответ через `ws.answer(scratchpad, verify)`, который успешно пройдет встроенную верификацию. Решение работает очень хорошо, используя сильные стороны Claude по интерактивному анализу и написанию кода, подкрепленные заложенным заранее списком правил в чеклиста. Слабые места решения (классы задач, на которых архитектура ломалась) - это: - спрятанные в документах вредоносные инструкции, например t011 - удаление пачки файлов - t006 - кейсы, когда мы описываем сущности и проекты (и нужна LLM-ка, чтобы их найти) - t025, t051 - работа с датами, например t012, t037 Но при всем при этом, решение заняло первое место и показало результат лучше более сложных систем. Чтобы повторить в своем решении: - упрощаем число инструментов - даем агенту возможность писать код - даем возможность сохранять память и результаты работы - Прописываем четкие чеклисты и процесс валидации Автор Operation Pangolin - Illia Dzivinskyi (@i_november)! Поздравляю с первым местом в соревновательной части BitGN PAC1! Решение заняло первое место в Accuracy Leaderboard (87 очков, поделили с codex-on-rails) и с первым местов в Ultimate Leaderboard (92 очка). Исходники - в GitHub. Задавать вопросы автору можно прямо в комментариях к посту. Туда же я скину график, который сравнивает поведение этого агента с запусками всех других агентов в соревновательном прогоне. Кто помнит хроники спасения проекта с LLM под капотом? Там использовалась схожая архитектура, где LLM генерила кучу кода, который и выполнял всю работу с выдающейся точностью. Ваш, @llm_under_hood 🤗
Анализ кода агента с первым местом в слепом прогоне BitGN PAC1 Итак, Operation…
Из этого канала
- #815Инсайты из второй топовой архитектуры BitGN PAC1 доступны! Вместе с…
Инсайты из второй топовой архитектуры BitGN PAC1 доступны! Вместе с исходниками. Смотрим в оглавлении инсайтов.
- #816Краткий анализ codex-on-rails архитектуры из BitGN PAC1 Ядро агента запускает…
Краткий анализ codex-on-rails архитектуры из BitGN PAC1 Ядро агента запускает codex cli через —exec, передавая ему доступ к базе знаний и хранилищу через MCP…
- #817Эй, Codex, я тут пошутил в чате, что народ так активно гоняет агентов на BitGN…
Эй, Codex, я тут пошутил в чате, что народ так активно гоняет агентов на BitGN арене, что у файловой системы скоро опять inodes закончатся.
- #811Анализ того, как агенты справлялись с задачами на безопасность в BitGN PAC1 Я…
Анализ того, как агенты справлялись с задачами на безопасность в BitGN PAC1 Я взял все прогоны из Accuracy Leadeboard-a и проанализировал то, как разнообразные…
- #810Hall of Fame лидерборды BitGN - Accuracy + Ultimate Ссылки на глобальные…
Hall of Fame лидерборды BitGN - Accuracy + Ultimate Ссылки на глобальные лидерборды (соревновательные и пополняемые) теперь есть на странице BitGN/PAC1.