Обновление нашей платформы тестирования AI агентов - видно больше разных… — @llm_under_hood

Обновление нашей платформы тестирования AI агентов - видно больше разных архитектур (1) В live leaderboards теперь показывается одно лучшее решение на аккаунт (чтобы больше команд показать, например ERC3-PROD) (2) В frozen leaderboard я добавил больше архитектур агентов (отдельная благодарность командам, которые прислали их) и ultimate leaderboard. В последнем показывается самое лучше решение команды за время соревнования, без учета флагов и очередности. Дальше я буду работать над публичным стандартом для такой платформы, чтобы всем было проще добавлять свои визуализации и интеграции, тестировать своих агентов. Да и командам, которые начали вайб-кодить копии платформы для внутреннего тестирования своих агентов, будет проще - можно будет докинуть этот стандарт в контекст. В идеале, хочется отразить все кейсы AI внедрений нашего канала (см оглавление) в публичных бенчмарках на такой платформе, что позволит любому попробовать свои силы в решении продуктовых задач, которые актуальны сегодня в мире. Как думаете, потянем такое вместе? Ваш, @llm_under_hood 🤗

Из этого канала