Результаты опроса про внедрение Schema-Guided Reasoning в компаниях Всего был заполнен 21 опросник (ссылка). Вот самые частые вопросы: (1) Как повысить стабильность и точность динамического роутинга интентов в разговорных графах с помощью SGR? (2) Как надежно извлекать структурированные данные из больших и сложных PDF-файлов на локальных или open-source моделях? (3) Как оценивать качество текстовых ответов, сгенерированных при помощи SGR, особенно если результат субъективен или носит описательный характер? (4) В чём практическая разница, преимущества и недостатки подходов Structured Output vs Tool Calling? (5) Какие подходы позволяют управлять и валидировать мультиязычные реализации SGR-схем? (6) Как упростить сложные SGR-схемы, чтобы снизить задержку ответа в real-time агентах? (7) Какие методологии и практики существуют для интеграции и тестирования решений на основе SGR в текущие рабочие процессы компаний? Сразу скажу, что точных ответов на большую часть вопросов - у меня вот прямо сейчас нет - тема новая, а мы только начинаем нащупывать работающие подходы (пара мыслей есть - их озвучим). Но это не значит, что ответы нельзя будет найти всем вместе, замерить, систематизировать и задокументировать. Идея такая. Все же помнят, как в истории про спасение проекта мы разделили команды на две противоборствующие силы - Eval vs SGR? Это важно. т.к. разрабатывать что-то и одновременно контроллировать качество - сложно. Вот и сейчас, многие пилят агентные решения на базе SGR (особенно - SGR Deep Research вокруг @neuraldeep), а вот дотошно бенчмаркать и сравнивать обычно не хватает времени или ground truth. В ближайшие дни я возвращаюсь к работе над инфраструктурой Enterprise RAG Challenge v3. И вот в нее я хочу встроить бенчмарки/evals/стратегические карты ошибок, которые позволят любому написать своего агента и протестировать его способности, сравнив с другими. Вот тут и можно будет сравнить Function Calls vs Structured Output, разные маленькие локальные модели или просто скорость ответов разных архитектур. API будет доступна публично по мере готовности, а после соревнования - весь код будет выложен в OpenSource. Статистика и отчеты тоже публичные, как и всегда в ERC. Ну что, поищем ответы на эти вопросы вместе? Ваш, @llm_under_hood 🤗
Результаты опроса про внедрение Schema-Guided Reasoning в компаниях Всего был…
Из этого канала
- #663Бенчмарки новых LLM на бизнес задачах. (1) x-ai/grok-4-fast - 18 место, что…
Бенчмарки новых LLM на бизнес задачах. (1) `x-ai/grok-4-fast` - 18 место, что очень хорошо.
- #664Иллюстрация пайплайна из истории про спасение проекта с LLM под капотом (проект…
Иллюстрация пайплайна из истории про спасение проекта с LLM под капотом (проект про извлечение промышленных данных из разных PDF от разных поставщиков с…
- #665Qwen3 VL Thinking - TOP3 в бенчмарке! Alibaba Cloud выкатили на днях новые Qwn…
Qwen3 VL Thinking - TOP3 в бенчмарке! Alibaba Cloud выкатили на днях новые Qwn модели. Я слышал, что они неплохи, но это говорят нынче про каждую модель.
- #661Вот тот самый тайный первый промпт, который отвечает за самую сложную часть…
Вот тот самый тайный первый промпт, который отвечает за самую сложную часть анализа документов в завершенном проекте (см выше).
- #660"Эпилог спасательного проекта и ответы на некоторые вопросы (В прошлых сериях:…
"Эпилог спасательного проекта и ответы на некоторые вопросы (В прошлых сериях: 1, 2, 3, 4, 5, 6+7) Клиент потом довольно сказал, что “was very happy about the…