Считаем, что BitGN Sandbox проверку на дым прошел Инженеры подключаются к Harness, запускают в среде AI агентов, получают оценку действий и уже спрашивают про будущие ловушки и грабли в соревновании 11 апреля. Sandbox - это тестовый стенд с простой средой - папка a la Obsidian Vault с кучкой markdown файлов и возможностью создавать типизированные записи (вроде TODO или контактов). Задач там сейчас всего 7 штук и не требуется авторизация. А на само соревнование персональных агентов я подготовлю runtime поинтереснее, с симуляцией бОльшего количества инструментов. Что-нибудь с эмуляцией чатов, почты, хождения на другие сервера и вызова деструктивных команд. Если ломать виртуальные среды, то так ломать. Ваш, @llm_under_hood 🤗 PS: Leaderboards, профили, ключи, режим отладки и прочие фишки от прошлых соревнований - тоже скоро начну включать.
Считаем, что BitGN Sandbox проверку на дым прошел Инженеры подключаются к…
Из этого канала
- #774"Как запустить рандомную модель на своем железе? Можно повторить то, что сделал…
"Как запустить рандомную модель на своем железе? Можно повторить то, что сделал Dan Woods, когда ему захотелось самому запустить Qwen3.5-397B на своем M3 Max…
- #775Я попросил ChatGPT Codex построить таймлайн разработки моих основных проектов…
Я попросил ChatGPT Codex построить таймлайн разработки моих основных проектов (на основе git), и получилась такая картинка.
- #776Число переключений контекста в день, по мере объединения разных проектов в одну…
Число переключений контекста в день, по мере объединения разных проектов в одну систему - растет Это продолжение прошлого поста.
- #772BitGN Sandbox доступен! Update: это новая версия видео, подлиннее В нем мы…
BitGN Sandbox доступен! Update: это новая версия видео, подлиннее В нем мы симулируем работу персонального агента, у которого есть полный доступ к Obsidian…
- #770В чате канала был вопрос > На следующей неделе в одной очень большой корпорации…
В чате канала был вопрос > На следующей неделе в одной очень большой корпорации будет приниматься решение о программе внедрения LLM в операционную…