Первые инсайты из Enterprise RAG Challenge r2 __ Мы с вами их обнаружили вместе! __ Во-первых, качество извлечения документов важно для точности. Тут внезапно хорошо себя проявила библиотечка Docling от IBM (даже за пределами WatsonX AI Track). Во-вторых, при наличии хорошой архитектуры можно получить высокие результаты даже на локальных моделях. Смотрим на архитектуру Ильи, которую он запускал на разных моделях. __PDF parsing with heavily modified Docling library + Dense retrieval + Router + Parent Document Retrieval + SO CoT + SO reparser__ ``` o3-mini R: 83.8 │ G: 81.8 │ Score: 123.7 llama3.3-70b R: 83.9 │ G: 72.8 │ Score: 114.8 llama-3.1 8b R: 81.1 │ G: 68.7 │ Score: 109.3 R - Retrieval score G - Generation score ``` Видно, что по мере снижения размера модели, у нас снижается качество ответов. Но оно падает не так быстро, как можно было бы ожидать. Я думаю, что это все благодаря качественно сделанной Retrieval части - она “облегчает” работу LLM на финальных этапах. В-третьих, в топовых решениях часто используются reasoning паттерны на основе SO CoT (Structured Outputs + Chain of Thought == Custom Chain of Thought). Причем они работают даже там, где SO нет и впомине (только нужно использовать Schema Repair). В-четвертых, в ситуациях со сложно предсказуемыми вопросами хороший векторный поиск пока до сих пор работает чуть лучше решений без векторов. Самый главный вывод для меня - с локальными моделями, оказывается, можно делать сильно больше и сильно лучше, чем казалось раньше. Они могут составить неплохую конкуренцию облачным моделям, если выжимать максимум из их способностей. --- - Победители Enterprise RAG Challenge r2 - Табличка с результатами (лучший результат от каждой команды) Ваш, @llm_under_hood 🤗
Первые инсайты из Enterprise RAG Challenge r2 Мы с вами их обнаружили вместе!…
Из этого канала
- #525"Benchmark qwen/qwq-32b - она может и больше! Итак, новая qwen/qwq-32b на моем…
"Benchmark qwen/qwq-32b - она может и больше! Итак, новая qwen/qwq-32b на моем reasoning бенчмарке показала себя лучше, чем qwen-2.5-72b-instruct и предыдущие…
- #526Финальные результаты Enterprise RAG Challenge - Team Leaderboard - оценивает…
Финальные результаты Enterprise RAG Challenge - Team Leaderboard - оценивает команды (берется лучшее решение каждой команды) - SotA Leaderboard - оценивает все…
- #529Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило…
Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило запустить заново Enterprise RAG Challenge Submission API, чтобы можно было поставить…
- #523Победители Enterprise RAG Challenge! Я поздравляю всех победителей и…
Победители Enterprise RAG Challenge! Я поздравляю всех победителей и участников. Мы сейчас не только классное соревнование устроили, но и сделали прямо…
- #522"Завтра в 10:00 по CET (UTC+1) я расскажу про победителей Enterprise RAG…
"Завтра в 10:00 по CET (UTC+1) я расскажу про победителей Enterprise RAG Challenge и новые инсайты. Встретимся в MS Teams.