Вы круты! Закончилась основная часть соревнования, где разные команды со всего… — @llm_under_hood

Вы круты! Закончилась основная часть соревнования, где разные команды со всего мира вслепую решали сложные задачи корпоративной автоматизации при помощи AI: - Leaderboard (призовой 3-х часовой раунд и extended round). Эти результаты заморожены навсегда. Я буду дополнять архитектуры описаниями и ссылками на решения (по мере поступления обновлений от команд). Но рейтинги уже меняться не будут. - Финальный стрим Бенчмарк теперь работает в публичном режиме, показывает подсказки и сразу оценивает работу агентов. Этот бенчмарк гораздо сложнее реальных условий разворачивания AI агентов. В реальности есть возможность подкрутить промпты, добавить шорткаты, допилить агентов. А здесь у всех команд заранее был только доступ к корпоративному API. А компания за этим API открылась только в момент соревнования, со своими данными, корпоративной базой знаний и всякими CRM/ERP системами. Более того, на каждую задачу генерировалась с нуля своя небольшая вселенная. Ах, да, там еще были правила безопасности и попытки эту безопасность немного сломать. Понятно, что не все задачи сделаны мной идеально, но для оценки уровня SotA в построении агентов - этого хватить должно. Те, команды, агенты которых смогли выбить больше 40% accuracy вслепую в таких условиях, на реальных корпоративных условиях смогут показать точность выше 90%. Уже показывают. Особенно круты те команды, которые использовали необычные архитектуры, локальные модели или даже разворачивали свое железо! Спасибо вам! А теперь, давайте, посмотрим на лучшие результаты (см описания архитектур в лидерборде) и подтолкнем State of the Art еще дальше! Ваш, @llm_under_hood 🤗 PS: Платформа остается, можно продолжать ей пользоваться. Вопрос с новыми регистрациями постараюсь решить на днях

Из этого канала