"Завтра в 10:00 по CET (UTC+1) я расскажу про победителей Enterprise RAG… — @llm_under_hood

"Завтра в 10:00 по CET (UTC+1) я расскажу про победителей Enterprise RAG Challenge и новые инсайты. Встретимся в MS Teams. Ссылку на встречу выложим в discord, а видео - потом на Youtube. А пока, для затравки, самый первый инсайт. Он очевиден, и я рассказывал про ""signal vs noise"" и на вебинарах и в курсе, но так наглядно я его увидел впервые. Качество ответов RAG системы всегда будет ограничено качеством работы retrieval части. Если Retrieval тащит мусор или нерелевантную информацию в контекст - то это опускает максимальный предел точности всей системы в целом. Если Retrieval пропускает нужную информацию - тоже самое. Посмотрите на Retrieval Score и Generation Score в таблице в комментариях. R-Score - оценивает то, насколько правильно найдены релевантные страницы. G-Score - насколько правильны в итоге ответы. __Напомню, что R-score я обычно своих систем считаю сурово. Изначально есть балл. За каждую ненужную цитату - минус 0.1, за каждую пропущенную цитату - минус 0.25.__ Результаты Enterprise RAG Challenge показывают, что такой алгоритм оценки, внезапно, неплохо аппроксимирует теоретический потолок точности RAG системы. Практически всегда [1] G-Score ниже, чем R-Score. Это как если бы Retrieval часть задавала теоретический предел точности системы. А вот получится ли его реализовать - уже зависит от мощности модели и последнего reasoning шага. Signal-vs-noise на входном контексте этапа синтеза-генерации. Отсюда следует и обратное. Если Retrieval Score хороший, но итоговые ответы - не очень, то что-то мы на самом последнем этапе недокрутили. Тут можно улучшить. Побольше про это мы поговорим на объявлении итогов соревнования завтра. Приходите! Ваш, @llm_under_hood 🤗 --- [1] ""практически всегда"", но не ""всегда"". За пределами TOP-25 есть примеры, где retrieval достает много мусора, но generation часть в целом находит ответы."

Из этого канала