Финальные результаты Enterprise RAG Challenge - Team Leaderboard - оценивает команды (берется лучшее решение каждой команды) - SotA Leaderboard - оценивает все эксперименты, которые прислали команды вместе с заполненным опросником. Колонки: - Hours - сколько часов прошло между публикацией вопросов и генерацией ответов командой - R - Retrieval Score. Max: 100 - G - Generation Score. Max: 100 - Score - Final score (R/3+G). Max: 133 - AI - команды использовали наш AI Research (мой курс, работа в TimeToAct или комьюнити 🤗) - Lcl - использовались модели, которые можно запустить локально Картинки в оригинале лежат тут: https://abdullin.com/erc/. Позже я туда добавлю ссылки на все отчеты и посты участников, сделаю расширенные таблицы на основе опросников (с фильтрациями) Спасибо всем за участие - было очень круто! У нас вместе уже получилось продвинуть вперед SotA по построению RAG систем с LLM под капотом. Первые инсайты я опубликовал раньше, но основной анализ еще впереди. Ваш, @llm_under_hood 🤗
Финальные результаты Enterprise RAG Challenge - Team Leaderboard - оценивает…
Из этого канала
- #529Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило…
Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило запустить заново Enterprise RAG Challenge Submission API, чтобы можно было поставить…
- #530Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все…
Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все версии Qwen, кроме Max.
- #531"Можно ли использовать LLM для оптимизации промптов? Время от времени…
"Можно ли использовать LLM для оптимизации промптов? Время от времени кто-нибудь в чате поднимает этот вопрос.
- #525"Benchmark qwen/qwq-32b - она может и больше! Итак, новая qwen/qwq-32b на моем…
"Benchmark qwen/qwq-32b - она может и больше! Итак, новая qwen/qwq-32b на моем reasoning бенчмарке показала себя лучше, чем qwen-2.5-72b-instruct и предыдущие…
- #524Первые инсайты из Enterprise RAG Challenge r2 Мы с вами их обнаружили вместе!…
Первые инсайты из Enterprise RAG Challenge r2 Мы с вами их обнаружили вместе! Во-первых, качество извлечения документов важно для точности.