"Завтра в 10:00 по CET (UTC+1) я расскажу про победителей Enterprise RAG Challenge и новые инсайты. Встретимся в MS Teams. Ссылку на встречу выложим в discord, а видео - потом на Youtube. А пока, для затравки, самый первый инсайт. Он очевиден, и я рассказывал про ""signal vs noise"" и на вебинарах и в курсе, но так наглядно я его увидел впервые. Качество ответов RAG системы всегда будет ограничено качеством работы retrieval части. Если Retrieval тащит мусор или нерелевантную информацию в контекст - то это опускает максимальный предел точности всей системы в целом. Если Retrieval пропускает нужную информацию - тоже самое. Посмотрите на Retrieval Score и Generation Score в таблице в комментариях. R-Score - оценивает то, насколько правильно найдены релевантные страницы. G-Score - насколько правильны в итоге ответы. __Напомню, что R-score я обычно своих систем считаю сурово. Изначально есть балл. За каждую ненужную цитату - минус 0.1, за каждую пропущенную цитату - минус 0.25.__ Результаты Enterprise RAG Challenge показывают, что такой алгоритм оценки, внезапно, неплохо аппроксимирует теоретический потолок точности RAG системы. Практически всегда [1] G-Score ниже, чем R-Score. Это как если бы Retrieval часть задавала теоретический предел точности системы. А вот получится ли его реализовать - уже зависит от мощности модели и последнего reasoning шага. Signal-vs-noise на входном контексте этапа синтеза-генерации. Отсюда следует и обратное. Если Retrieval Score хороший, но итоговые ответы - не очень, то что-то мы на самом последнем этапе недокрутили. Тут можно улучшить. Побольше про это мы поговорим на объявлении итогов соревнования завтра. Приходите! Ваш, @llm_under_hood 🤗 --- [1] ""практически всегда"", но не ""всегда"". За пределами TOP-25 есть примеры, где retrieval достает много мусора, но generation часть в целом находит ответы."
"Завтра в 10:00 по CET (UTC+1) я расскажу про победителей Enterprise RAG…
Из этого канала
- #523Победители Enterprise RAG Challenge! Я поздравляю всех победителей и…
Победители Enterprise RAG Challenge! Я поздравляю всех победителей и участников. Мы сейчас не только классное соревнование устроили, но и сделали прямо…
- #524Первые инсайты из Enterprise RAG Challenge r2 Мы с вами их обнаружили вместе!…
Первые инсайты из Enterprise RAG Challenge r2 Мы с вами их обнаружили вместе! Во-первых, качество извлечения документов важно для точности.
- #525"Benchmark qwen/qwq-32b - она может и больше! Итак, новая qwen/qwq-32b на моем…
"Benchmark qwen/qwq-32b - она может и больше! Итак, новая qwen/qwq-32b на моем reasoning бенчмарке показала себя лучше, чем qwen-2.5-72b-instruct и предыдущие…
- #521На чем запускать локальные модели? В нашем комьюнити очень много людей и…
На чем запускать локальные модели? В нашем комьюнити очень много людей и команд с практическим опытом локального разнообразных систем с LLM под капотом.
- #520Презентация «The Power of Context» от Stefan Gillich (директор AI GTM в Intel).…
Презентация «The Power of Context» от Stefan Gillich (директор AI GTM в Intel). Основная часть довольно техническая, но потом он отвечал на вопросы из нашего…