Как тестировать AI агентов? (1) Заводим виртуальную среду, в которой мы контроллируем абсолютно все (deterministic simulation) (2) Добавляем энтропии (randomness), чтобы каждый запуск немного отличался, а агентам было сложнее выучить ответы. Запоминаем seed. (3) Описываем какой-то кейс или историю. Наполняем среду деталями на их основе. (4) Мы контроллируем среду, поэтому заранее знаем правильные ответы для каждого варианта (5) Пишем набор проверок, которые сравнивнят наши ожидания с действиями агента в среде. (6) Если повторить этот процесс раз 100, то получится набор задач для нашего соревнования BitGN PAC1. А на скриншоте - пример задачки из разогревочных Sandbox заданий, которые я открою на следующей неделе. Очень похоже на ERC3, просто среда немного другая. Ваш, @llm_under_hood 🤗
Как тестировать AI агентов? (1) Заводим виртуальную среду, в которой мы…
Из этого канала
- #767JetBrains выкатили свой вариант Codex Desktop, который можно подключить к…
JetBrains выкатили свой вариант Codex Desktop, который можно подключить к подписке OpenAI (а еще к Gemini CLI или Anthropic API).
- #768"Использование агентов в разработке - это как с ездой на машине За рулем ехать…
"Использование агентов в разработке - это как с ездой на машине За рулем ехать сильно быстрее, чем идти пешком, но и требуется больше постоянного контроля за…
- #769"Выпускать продукты с LLM под капотом нынче проще, т.к. теперь можно частично…
"Выпускать продукты с LLM под капотом нынче проще, т.к. теперь можно частично снять с себя DevOps нагрузку.
- #765В BitGN официально добавились инженеры из Африки! Из крупных континентов без…
В BitGN официально добавились инженеры из Африки! Из крупных континентов без покрытия осталась только Австралия. Работаем над устранением этого недостатка.
- #764"Насколько ускоряется динамика разработки продуктов с LLM под капотом Я с…
"Насколько ускоряется динамика разработки продуктов с LLM под капотом Я с прошлой недели несколько дней вымучивал дизайн MCP сервера, который бы дал разным…