Задачки на OCR в ecom1-dev и сюрприз агентам-скрейперам Итак, небольшой апдейт платформы. (1) Просили OCR? Добавил 3 задачки на OCR. Теперь потолок - 53 (2) Интерфейс работы с Harness чуть поменялся. Чтобы никто больше не забывал закрывать прогоны (и не грустил после соревнования), теперь оценка задач выдается пачкой только после закрытия всего прогона. Не закрыли прогон - оценку не получили. Код агентов не меняется, просто меняется место вывода ответов при отладке (см пример) (3) Чтобы создателям Adversarial AI agents было интереснее, и чтобы они не могли так быстро забивать верхушку лидерборда, я добавил rate limits на число прогонов (10 прогонов за 30 минут). Если уперлись в лимит (получили CodeResourceExhausted) - нужно просто подождать столько секунд, сколько указано в тексте ответа или в заголовке Retry-After. Ели считать, что LLM прогон занимает 5-60 минут, то лимиты проблемой быть не должны. Ну и это даст небольшую защиту соревнования от банального перебора всех вариантов миров за час, а потом написания захаркоженного агента. И я немного поменял текст пары задач, поэтому adversarial агентам понадобится немного времени, чтобы обновить базы) А у обычных агентов есть шанс занять законное место в топах! Ваш, @llm_under_hood 🤗 PS: Если вы используете BitGN для обучения команд или рабочих задач, и нужны лимиты выше - есть private режим для компаний. Там другие лимиты, лидерборды не засоряются, и есть побольше задачек
Задачки на OCR в ecom1-dev и сюрприз агентам-скрейперам Итак, небольшой апдейт…
Из этого канала
- #852ECOM1 Challenge - низкий старт • Предварительный стрим: 9:30 CEST (по Вене): •…
ECOM1 Challenge - низкий старт • Предварительный стрим: 9:30 CEST (по Вене): • В 10:00 - открытие задач ECOM1-PROD • 13:00 - закрываем соревновательный раунд,…
- #853BitGN1 ECOM1-PROD запущен (1) Соревновании агентов и их разработчиков - на…
BitGN1 ECOM1-PROD запущен (1) Соревновании агентов и их разработчиков - на странице ECOM. (2) Стрим с открытия - YouTube.
- #854Соревнование BitGN ECOM1-PROD закончилось! Бенчмарк теперь открыт для всех.…
Соревнование BitGN ECOM1-PROD закончилось! Бенчмарк теперь открыт для всех. Те, кто чуть-чуть не успел - могут первыми посмотреть на свои результаты.
- #850Markdown самый популярный язык программирования в моих проектах :D Следом за…
Markdown самый популярный язык программирования в моих проектах :D Следом за ним идут go, HTML, Text и CSS. На графике - рост числа строчек кода в этом году.
- #849Разработка проектов с AI агентами - про правильные сценарии, требования и…
Разработка проектов с AI агентами - про правильные сценарии, требования и инструментарий. Когда такие рельсы настроены, то процессы по ним просто летают.