Почему большинство тестов ИИ-ассистентов не работают в реальности Российские исследователи из SberAI, MWS AI, а также ИТМО, ВШЭ, МИСИС и других университетов представили методологию DRAGOn – это новый подход к оценке RAG-систем, которые лежат в основе современных ИИ-ассистентов. Ключевая идея в том, чтобы уйти от статичных тестов к динамической среде с постоянно обновляющимися данными. Саму работу приняли на международной конференции EACL 2026. Классические бенчмарки быстро устаревают и плохо отражают реальные условия. В бизнесе ИИ работает с живыми базами знаний, где важны актуальность и связность фактов, а не просто точность на фиксированном датасете. DRAGOn предлагает тестировать ИИ-системы на свежих новостях, автоматически собирая из них «карту знаний». Вместо простых вопросов «кто/где/когда», система создает многоуровневые логические задачи. Чтобы ответить, ИИ должен сопоставить несколько фактов из разных новостей, а не просто скопировать кусок текста, а проверкой ответов занимается нейросеть-судья. Что это дает на практике: - Задачи становятся многошаговыми, а не тривиальными; - Проверяется способность связывать факты, а не копировать ответы; - Оценка учитывает полноту и фактическую точность, а не совпадение слов. Методологию можно развернуть внутри компании и тестировать ИИ на собственных данных до внедрения. Это позволяет сравнивать решения в реальных сценариях и снижать риски ошибок, особенно в задачах аналитики, поддержки и работы с документами. https://arxiv.org/abs/2507.05713
Почему большинство тестов ИИ-ассистентов не работают в реальности Российские…
Из этого канала
- #8913Найдена та самая модель, которую Дженсен Хуанг назвал AGI…
Найдена та самая модель, которую Дженсен Хуанг назвал AGI https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
- #8914Сегодня вышло самое масштабное обновление ГигаЧат в этом году. Новость…
Сегодня вышло самое масштабное обновление ГигаЧат в этом году. Новость интересна не только самим фактом релиза, а тем, что Сбер выложил код и веса в открытый…
- #8915Ян Лекун резко шагнул вперед в изобретении универсальной архитектуры для world…
Ян Лекун резко шагнул вперед в изобретении универсальной архитектуры для world models Очень многие точно слышали про JEPA.
- #8911Новые страсти в отношениях OpenAI и Microsoft В сеть утек кусок из pre-IPO…
Новые страсти в отношениях OpenAI и Microsoft В сеть утек кусок из pre-IPO документа, который OpenAI составляет для инвесторов.
- #8910Кстати, вы знали, что Хуанг недавно предложил выплачивать сотрудникам премии…
Кстати, вы знали, что Хуанг недавно предложил выплачивать сотрудникам премии токенами? То есть инженеры получают базовую зарплату плюс половину этой суммы в…