"График точности всех RAG экспериментов из ERCv2 __Напомню, что в Enterprise RAG Challenge 43 команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.__ Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены. - R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница) - G - это точность финального ответа, на основе ground truth данных - Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation. Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ. Те, кто был ниже - находили правильные данные, но путались с генерацией ответа. Самые лучшие RAG системы (по итоговому качеству ответов) - ""сгрудились"" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста. __А в какой части этого графика оказались ваши эксперименты?__ Ваш, @llm_under_hood 🤗 PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур."