Формат третьего раунда ERC - приземляем наш R&D Итак, смотрите. Во втором… — @llm_under_hood

Формат третьего раунда ERC - приземляем наш R&D Итак, смотрите. Во втором раунде Enterprise RAG challenge мы искали ответы на вопросы в сотне годовых отчетов. Обнаружили, что если оценивать не только сам ответ, но и наличие доказательств, то вырисовывается интересная картина по поводу R/G scores. А еще получили понимание того, какие архитектуры и подходы справляются в таких RAG задачах лучше всех (см таблицу с обзорами https://abdullin.com/erc#r2) Чего по отзывам не хватало в нашем R&D: - оценки качества извлечения данных из графиков и таблиц - наличия заранее готового evaluation pipeline - формулировки задания, которая более приближена к реальным проблемам бизнеса - заранее подготовленного стенда для оценки результатов (каждый писал систему оценки самостоятельно) В третьем раунде можно сделать поинтереснее. Во первых мы заранее наберем бизнес-документов из разных отраслей, публичных либо вручную анонимизированных - контракты, договоры, требования. Это уже будут не абстрактные годовые отчеты, а что-то более применимое и востребованное. Общий формат соревнования будет тем же самым - нужно будет автоматически дать ответы на набор сгенерированных вопросов по этим документам, сопроводив их ссылками на подтверждающие факты. Вместо ссылки на номер страницы, как это было во втором раунде, надо будет приводить доказательство с указанием на конкретный элемент документа в рамках семантической схемы (она похожа на то, как Docling извлекает структуру). Например, если ответ в таблице (а таких документов станет больше) - нужно будет привести название строки, столбца и конкретное значение. Если ответ на графике - примерный bbox. Если ответ - это пункт в контракте, то номер пункта и его текст. Так мы будем проверять, насколько правильно RAG находит исходные данные. Дальше начинается самое интересное. Мы вместе разработаем модульный стенд для прогона всего пайплайна и оценки результатов, опубликуем его заранее с набором данных для оценки. Каждый сможет взять код, форкнуть, попробовать что-то улучшить и сразу посмотреть на результаты. Это было то самое конкурентное преимущество, которое помогло Илье занять первое место во втором раунде. В итоге прокачивать базовый пайплайн можно будет в трех категориях: (1) Extraction - улучшать то, как система структурированно извлекает данные из страниц (2) Retrieval - делать извлеченные данные более релевантными (3) Generation - прокачивать reasoning системы, чтобы она приходила к правильным ответам Ну а в рамках соревнования нужно будет прогнать свои версии пайплайнов на новом наборе данных и рассказать про особенности архитектуры. Естественно, что все результаты, ссылки на отчеты участников и их форки будем публиковать открыто. Что скажете насчет такого варианта? Ваш, @llm_under_hood 🤗

Из этого канала