Как тестировать AI агентов? (1) Заводим виртуальную среду, в которой мы контроллируем абсолютно все (deterministic simulation) (2) Добавляем энтропии (randomness), чтобы каждый запуск немного отличался, а агентам было сложнее выучить ответы. Запоминаем seed. (3) Описываем какой-то кейс или историю. Наполняем среду деталями на их основе. (4) Мы контроллируем среду, поэтому заранее знаем правильные ответы для каждого варианта (5) Пишем набор проверок, которые сравнивнят наши ожидания с действиями агента в среде. (6) Если повторить этот процесс раз 100, то получится набор задач для нашего соревнования BitGN PAC1. А на скриншоте - пример задачки из разогревочных Sandbox заданий, которые я открою на следующей неделе. Очень похоже на ERC3, просто среда немного другая. Ваш, @llm_under_hood 🤗