Все архитектуры Enterprise RAG Challenge __Какие RAG архитектуры работают лучше всего с бизнес-документами?__ Вот вам обновленный и интерактивный leaderboard по результатам второго раунда Enterprise RAG Challenge: https://abdullin.com/erc/. Можно кликать на команды и читать про детали их решений на основе заполненных опросников. Если у команды было несколько экспериментов, то в карточке они тоже будут упомянуты. В итоге у нашего коммьюнити получилось мощное исследование разных RAG архитектур на практической бизнес-задаче! Причем, leaderboard с деталями решений - это далеко не последний результат. Я попозже дополню эту таблицу ссылками на посты и исходники, которые мне присылают. А еще мы потихоньку начинаем планировать третий round. Его в итоге обсуждений решили сделать более организованным, чтобы выхлоп от R&D был интереснее и полезнее для всех в нашем комьюнити. Идея простая - учимся на своих ошибках и двигаемся дальше. В первом раунде мы обнаружили, что решения на базе SO / CoT легко занимают первое место. Вывод - сделаем генератор вопросов менее предсказуемым, чтобы SO/CoT жизнь маслом не казалась. Второй раунд - многие использовали SO/CoT без векторов, но в итоге победило решение Ильи. Он заранее собрал инфраструктуру для оценки своего пайплайна и перебрал варианты его настройки на основе тестового набора данных. Вывод - заранее соберем нормальную инфраструктуру для оценки пайплайнов и опубликуем ее вместе с тестовыми данными для всех желающих. Чтобы каждый мог быстро ставить разные эксперименты и оценивать их результаты. И посмотрим, что получится в третьем раунде. Ведь интересно же, правда?) Ваш, @llm_under_hood 🤗 -- - Пост про победителей
Все архитектуры Enterprise RAG Challenge Какие RAG архитектуры работают лучше…
Из этого канала
- #535"Сегодня я запускаю новый эксперимент. Это курс AI+Coding для одной компании.…
"Сегодня я запускаю новый эксперимент. Это курс AI+Coding для одной компании. Какую проблему мы пытаемся решить? Во множестве компаний есть свои IT отделы с…
- #536Формат третьего раунда ERC - приземляем наш R&D Итак, смотрите. Во втором…
Формат третьего раунда ERC - приземляем наш R&D Итак, смотрите. Во втором раунде Enterprise RAG challenge мы искали ответы на вопросы в сотне годовых отчетов.
- #537"Исходники лучшего решения ERCr2 и лонгрид на хабре Если вам хочется заняться…
"Исходники лучшего решения ERCr2 и лонгрид на хабре Если вам хочется заняться чем-то интересным на этих выходных, можно глянуть эти ссылки и понять, что именно…
- #533Mistral Small 3.1 24B - не революция, но планку поднимает Эта новая модель от…
Mistral Small 3.1 24B - не революция, но планку поднимает Эта новая модель от Mistral по своим оценкам на бенчмарке очень похожа на предыдущую версию 3.0 от 25…
- #532Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M.…
Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M. Говорят, что работает лучше Qwen2.5VL, но не со всеми языками.