Обновление нашей платформы тестирования AI агентов - видно больше разных архитектур (1) В live leaderboards теперь показывается одно лучшее решение на аккаунт (чтобы больше команд показать, например ERC3-PROD) (2) В frozen leaderboard я добавил больше архитектур агентов (отдельная благодарность командам, которые прислали их) и ultimate leaderboard. В последнем показывается самое лучше решение команды за время соревнования, без учета флагов и очередности. Дальше я буду работать над публичным стандартом для такой платформы, чтобы всем было проще добавлять свои визуализации и интеграции, тестировать своих агентов. Да и командам, которые начали вайб-кодить копии платформы для внутреннего тестирования своих агентов, будет проще - можно будет докинуть этот стандарт в контекст. В идеале, хочется отразить все кейсы AI внедрений нашего канала (см оглавление) в публичных бенчмарках на такой платформе, что позволит любому попробовать свои силы в решении продуктовых задач, которые актуальны сегодня в мире. Как думаете, потянем такое вместе? Ваш, @llm_under_hood 🤗
Обновление нашей платформы тестирования AI агентов - видно больше разных…
Из этого канала
- #722Да, мы сделали это! Более 600 баксов спущено на erc3-prod. Почти треть тулов…
Да, мы сделали это! Более 600 баксов спущено на erc3-prod. Почти треть тулов переписано за вчера и сегодня.
- #723Как провести новогодние праздники с пользой? (1) Прочитать ВОТ этот список AI…
Как провести новогодние праздники с пользой? (1) Прочитать ВОТ этот список AI кейсов с разборами архитектур и все комментарии.
- #7242025 год был богат на события! Мы с вами провели вместе два раунда ERC -…
2025 год был богат на события! Мы с вами провели вместе два раунда ERC - дружеского международного соревнования по построению самых лучших систем с LLM под…
- #720Вот мне тут после ERC3 пишут: - Я хочу схантить к себе человека из топов. - Я…
Вот мне тут после ERC3 пишут: - Я хочу схантить к себе человека из топов. - Я засветился в топах ERC3 и ищу интересные проекты Давайте структурируем и ускорим…
- #719Помните, когда-то давно я рассказывал про историю разработки своего reasoning…
Помните, когда-то давно я рассказывал про историю разработки своего reasoning агента, который мог разгрызать сложные compliance документы? И тогда это казалось…