Задачки на OCR в ecom1-dev и сюрприз агентам-скрейперам Итак, небольшой апдейт… — @llm_under_hood

Задачки на OCR в ecom1-dev и сюрприз агентам-скрейперам Итак, небольшой апдейт платформы. (1) Просили OCR? Добавил 3 задачки на OCR. Теперь потолок - 53 (2) Интерфейс работы с Harness чуть поменялся. Чтобы никто больше не забывал закрывать прогоны (и не грустил после соревнования), теперь оценка задач выдается пачкой только после закрытия всего прогона. Не закрыли прогон - оценку не получили. Код агентов не меняется, просто меняется место вывода ответов при отладке (см пример) (3) Чтобы создателям Adversarial AI agents было интереснее, и чтобы они не могли так быстро забивать верхушку лидерборда, я добавил rate limits на число прогонов (10 прогонов за 30 минут). Если уперлись в лимит (получили CodeResourceExhausted) - нужно просто подождать столько секунд, сколько указано в тексте ответа или в заголовке Retry-After. Ели считать, что LLM прогон занимает 5-60 минут, то лимиты проблемой быть не должны. Ну и это даст небольшую защиту соревнования от банального перебора всех вариантов миров за час, а потом написания захаркоженного агента. И я немного поменял текст пары задач, поэтому adversarial агентам понадобится немного времени, чтобы обновить базы) А у обычных агентов есть шанс занять законное место в топах! Ваш, @llm_under_hood 🤗 PS: Если вы используете BitGN для обучения команд или рабочих задач, и нужны лимиты выше - есть private режим для компаний. Там другие лимиты, лидерборды не засоряются, и есть побольше задачек

Из этого канала