"Я тут придумал крутую штуку, вам это понравится (см в конце поста) Итак, соревнование 11 апреля будет называться BitGN PAC (или ""BitGN Agent Challenge: Personal & Trustworthy""). Доки по организации площадок и процесса я пишу прямо сейчас. Все новости будут дублироваться в канале. __На самом деле, все почти как в ERC3, но, оказывается, далеко не все в нем участвовали))__ Но суть та же самая - я выкатываю платформу с апишками, которые симулируют какую-то среду в упрощенном виде. Для ERC3 - это была корпоративная среда, для BitGN PAC - это будет среда для персонального агента с таймерами, файлами, каналами коммуникации, тулзами). Участники пишут свое ядро агента, которое запускается в этой среде (Harness) и решает задачи. Для этого агенту нужно будет дергать апишки, вызывать LLM-ки (какие угодно) и в итоге давать ответ. А система оценивает точность и безопасность ответов без всяких LLM-as-a-judge костылей. Это все проходили. 368k agent evals не дадут соврать. На выходе участники соревнования получают интересный опыт, их решения занимают места в глобальном рейтинге, топовых игроков начинают переманивать к себе, а зрители могут увидеть какие решения на практике работают лучше всего (ибо архитектурами обычно делятся). И это дает задел всем на следующие соревнования. Ну а написанное ядро ставится на полку в GitHub. Все круто. А что, если сделать еще веселее? После соревнования я хочу сделать референсную реализацию инфраструктуры, в которую ваш агент ""втыкался"" во время соревнования. Опубликовать ее в OpenSource, чтобы можно было ее запустить у себя на лаптопе или сервере, и ваш агент уже работал с вашими файлами, отвечал на ваши сообщения и разгребал ваши задания. И потом это все можно будет, естественно, форкать и допиливать, как душе угодно. Можно даже один экземпляр агента запустить публично для взлома. И удачные взломы забрать в качестве тестовых заданий для следующих соревнования. А то агентов после ERC3 в компаниях уже запускали, а вот личных агентов - еще не особо. Ваш, @llm_under_hood 🤗"
"Я тут придумал крутую штуку, вам это понравится (см в конце поста) Итак,…
Из этого канала
- #757Можно подавать заявки на организацию площадок для BitGN PAC1 (Aka “Делаем…
Можно подавать заявки на организацию площадок для BitGN PAC1 (Aka “Делаем своего ClawBot-a”, aka “ERC4” aka “BitGN Agent Challenge: Personal & Trustworthy”)…
- #758"Кейс с LLM под капотом - у налогового консультанта Самые классные (на мой…
"Кейс с LLM под капотом - у налогового консультанта Самые классные (на мой взгляд) кейсы внедрения LLM под капот бизнеса - это достаточно простые вещи, где…
- #759Кейс про новое и хорошо забытое старое Вот еще один кейс внедрения LLM-ок в…
Кейс про новое и хорошо забытое старое Вот еще один кейс внедрения LLM-ок в бизнесе с низким риском и высокой отдачей из категории Data Extraction.
- #755Инсайты из разработки продуктов с AI Agents (a la OpenAI Engineering Harness) Я…
Инсайты из разработки продуктов с AI Agents (a la OpenAI Engineering Harness) Я сейчас разрабатываю несколько проектов, везде используя максимально AI агентов…
- #754Update: Добавил новые города в список мест для регистрации на соревнование…
Update: Добавил новые города в список мест для регистрации на соревнование автономных агентов - Dortmund, Fukushima, Tbilisi, Valletta, Yerevan, Novi Sad,…