Первые инсайты из Enterprise RAG Challenge r2 __ Мы с вами их обнаружили вместе! __ Во-первых, качество извлечения документов важно для точности. Тут внезапно хорошо себя проявила библиотечка Docling от IBM (даже за пределами WatsonX AI Track). Во-вторых, при наличии хорошой архитектуры можно получить высокие результаты даже на локальных моделях. Смотрим на архитектуру Ильи, которую он запускал на разных моделях. __PDF parsing with heavily modified Docling library + Dense retrieval + Router + Parent Document Retrieval + SO CoT + SO reparser__ ``` o3-mini R: 83.8 │ G: 81.8 │ Score: 123.7 llama3.3-70b R: 83.9 │ G: 72.8 │ Score: 114.8 llama-3.1 8b R: 81.1 │ G: 68.7 │ Score: 109.3 R - Retrieval score G - Generation score ``` Видно, что по мере снижения размера модели, у нас снижается качество ответов. Но оно падает не так быстро, как можно было бы ожидать. Я думаю, что это все благодаря качественно сделанной Retrieval части - она “облегчает” работу LLM на финальных этапах. В-третьих, в топовых решениях часто используются reasoning паттерны на основе SO CoT (Structured Outputs + Chain of Thought == Custom Chain of Thought). Причем они работают даже там, где SO нет и впомине (только нужно использовать Schema Repair). В-четвертых, в ситуациях со сложно предсказуемыми вопросами хороший векторный поиск пока до сих пор работает чуть лучше решений без векторов. Самый главный вывод для меня - с локальными моделями, оказывается, можно делать сильно больше и сильно лучше, чем казалось раньше. Они могут составить неплохую конкуренцию облачным моделям, если выжимать максимум из их способностей. --- - Победители Enterprise RAG Challenge r2 - Табличка с результатами (лучший результат от каждой команды) Ваш, @llm_under_hood 🤗