Почему большинство тестов ИИ-ассистентов не работают в реальности Российские… — @data_secrets

Почему большинство тестов ИИ-ассистентов не работают в реальности Российские исследователи из SberAI, MWS AI, а также ИТМО, ВШЭ, МИСИС и других университетов представили методологию DRAGOn – это новый подход к оценке RAG-систем, которые лежат в основе современных ИИ-ассистентов. Ключевая идея в том, чтобы уйти от статичных тестов к динамической среде с постоянно обновляющимися данными. Саму работу приняли на международной конференции EACL 2026. Классические бенчмарки быстро устаревают и плохо отражают реальные условия. В бизнесе ИИ работает с живыми базами знаний, где важны актуальность и связность фактов, а не просто точность на фиксированном датасете. DRAGOn предлагает тестировать ИИ-системы на свежих новостях, автоматически собирая из них «карту знаний». Вместо простых вопросов «кто/где/когда», система создает многоуровневые логические задачи. Чтобы ответить, ИИ должен сопоставить несколько фактов из разных новостей, а не просто скопировать кусок текста, а проверкой ответов занимается нейросеть-судья. Что это дает на практике: - Задачи становятся многошаговыми, а не тривиальными; - Проверяется способность связывать факты, а не копировать ответы; - Оценка учитывает полноту и фактическую точность, а не совпадение слов. Методологию можно развернуть внутри компании и тестировать ИИ на собственных данных до внедрения. Это позволяет сравнивать решения в реальных сценариях и снижать риски ошибок, особенно в задачах аналитики, поддержки и работы с документами. https://arxiv.org/abs/2507.05713

Из этого канала