Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило запустить заново Enterprise RAG Challenge Submission API, чтобы можно было поставить еще несколько экспериментов. Он запущен по новому адресу - https://rag.abdullin.com Можете отправлять свои новые эксперименты туда. Только, пожалуйста, не забывайте заполнять форму с протоколом эксперимента. Так мы сможем потом подвести итоги и проанализировать. Самый интересный сейчас момент - это полностью локальные системы, у которых локально работает все - parsing/OCR, embeddings (если они есть) и LLM. В Leaderboards у нас пока помечены как локальные системы только те архитектуры, в которых LLM локальный. Я потом постараюсь добавить колонку для `Fully Local`. Кстати, я прошелся по части Local submissions и отфильтровал те, у которых точно есть облачный компонент. Обновил тут https://abdullin.com/erc/. Позже пройду мелкой гребенкой. Если верить цифрам R-Score/G-Score, узкое место полностью локальных систем - это retrieval. Если в облаке openai large embeddings творят чудеса, то с локальными системами еще предстоит разобраться. Разные варианты retrieval в Enterprise RAG Challenge уже изучали Valerii и Илья (см https://t.me/neuraldeep/1348 в NeuralDeep). Мне кажется перспективным направлением решение Dmitry Buykin. Оно работает в облаке, но вместо embeddings использует онтологии с SO/CoT чеклистами. Теоретически тут “R Score” может упасть не так сильно при переносе на локальные модели. Ваш, @llm_under_hood 🤗 PS: Если останется интерес, то можно попробовать через пару месяцев прогнать новый раунд ERC. С тем же генератором вопросов, но с новыми файлами.
Можно запускать новые Enterprise RAG эксперименты! 49 человек попросило…
Из этого канала
- #530Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все…
Benchmark Gemma-3-27B-Instruct - даже лучше QwQ-32B Модель уверенно побила все версии Qwen, кроме Max.
- #531"Можно ли использовать LLM для оптимизации промптов? Время от времени…
"Можно ли использовать LLM для оптимизации промптов? Время от времени кто-нибудь в чате поднимает этот вопрос.
- #532Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M.…
Новую PDF распознавалку от IBM подвезли - SmolDocling Это vision LM в 256M. Говорят, что работает лучше Qwen2.5VL, но не со всеми языками.
- #526Финальные результаты Enterprise RAG Challenge - Team Leaderboard - оценивает…
Финальные результаты Enterprise RAG Challenge - Team Leaderboard - оценивает команды (берется лучшее решение каждой команды) - SotA Leaderboard - оценивает все…
- #525"Benchmark qwen/qwq-32b - она может и больше! Итак, новая qwen/qwq-32b на моем…
"Benchmark qwen/qwq-32b - она может и больше! Итак, новая qwen/qwq-32b на моем reasoning бенчмарке показала себя лучше, чем qwen-2.5-72b-instruct и предыдущие…