Псст, я выложил первые задачи на PAC1-DEV Sample agent находится тут - https://github.com/bitgn/sample-agents/tree/main/pac1-py В этот дроп задач встроена история Джона - начинающего AI инженера, который завел себе Obsidian Vault по мотивам OpenAI Engineering Harness и начинает использовать его, чтобы отслеживать интересные заметки и новости (как с лаптопа, так и смартфона). Причем ядро структуры я взял со своего рабочего Obsidian Vault, которым пользуюсь для всего AI R&D. 9 задач, есть threat injections, непонятные запросы, неподдерживаемые запросы и работа по процессам (которые лежат в дереве и их еще надо найти) Этот бенч пока тоже работает анонимно, ключей от BitGN API не надо. PAC1-PROD будет использовать почти то же API. Возможно добавлю еще пару методов для работы с внешними интеграциями. О заморозке PAC1-DEV объявлю дополнительно. Делитесь scores своих агентов в комментариях! Ваш, @llm_under_hood 🤗
Псст, я выложил первые задачи на PAC1-DEV Sample agent находится тут -…
Из этого канала
- #780Вектора - ничто, инструменты - все Это девиз второго дропа функционала для…
Вектора - ничто, инструменты - все Это девиз второго дропа функционала для соревнования агентов в бенчмарке PAС1-DEV (а еще и обсуждений RAG в этом канале в…
- #781"Новые задачи в BitGN PAC1-DEV - со вкусом ERC3! Новые задачи t12-t20…
"Новые задачи в BitGN PAC1-DEV - со вкусом ERC3! Новые задачи t12-t20 используют генератор рантаймов, который немного похож на ERC3, а это значит, что агентам…
- #782Обсуждения агентов и задачек PAC1-DEV провалились в чат, поэтому в комментариях…
Обсуждения агентов и задачек PAC1-DEV провалились в чат, поэтому в комментариях к прошлому посту их не видно.
- #778"Мелкий status update (0) На HackerNews очень классное обсуждение того (ну или…
"Мелкий status update (0) На HackerNews очень классное обсуждение того (ну или признания в любви), почему люди используют NixOS для управления средами и…
- #777"Anthropic Channels - еще один (сырой) OpenClaw кирпичик В Claude Code завезли…
"Anthropic Channels - еще один (сырой) OpenClaw кирпичик В Claude Code завезли экспериментальную возможность подключать асинхронные каналы в сессию.