Результаты опроса про внедрение Schema-Guided Reasoning в компаниях Всего был… — @llm_under_hood

Результаты опроса про внедрение Schema-Guided Reasoning в компаниях Всего был заполнен 21 опросник (ссылка). Вот самые частые вопросы: (1) Как повысить стабильность и точность динамического роутинга интентов в разговорных графах с помощью SGR? (2) Как надежно извлекать структурированные данные из больших и сложных PDF-файлов на локальных или open-source моделях? (3) Как оценивать качество текстовых ответов, сгенерированных при помощи SGR, особенно если результат субъективен или носит описательный характер? (4) В чём практическая разница, преимущества и недостатки подходов Structured Output vs Tool Calling? (5) Какие подходы позволяют управлять и валидировать мультиязычные реализации SGR-схем? (6) Как упростить сложные SGR-схемы, чтобы снизить задержку ответа в real-time агентах? (7) Какие методологии и практики существуют для интеграции и тестирования решений на основе SGR в текущие рабочие процессы компаний? Сразу скажу, что точных ответов на большую часть вопросов - у меня вот прямо сейчас нет - тема новая, а мы только начинаем нащупывать работающие подходы (пара мыслей есть - их озвучим). Но это не значит, что ответы нельзя будет найти всем вместе, замерить, систематизировать и задокументировать. Идея такая. Все же помнят, как в истории про спасение проекта мы разделили команды на две противоборствующие силы - Eval vs SGR? Это важно. т.к. разрабатывать что-то и одновременно контроллировать качество - сложно. Вот и сейчас, многие пилят агентные решения на базе SGR (особенно - SGR Deep Research вокруг @neuraldeep), а вот дотошно бенчмаркать и сравнивать обычно не хватает времени или ground truth. В ближайшие дни я возвращаюсь к работе над инфраструктурой Enterprise RAG Challenge v3. И вот в нее я хочу встроить бенчмарки/evals/стратегические карты ошибок, которые позволят любому написать своего агента и протестировать его способности, сравнив с другими. Вот тут и можно будет сравнить Function Calls vs Structured Output, разные маленькие локальные модели или просто скорость ответов разных архитектур. API будет доступна публично по мере готовности, а после соревнования - весь код будет выложен в OpenSource. Статистика и отчеты тоже публичные, как и всегда в ERC. Ну что, поищем ответы на эти вопросы вместе? Ваш, @llm_under_hood 🤗

Из этого канала