В последнее время я всё чаще замечаю, что практически во всех материалах на тему разработки ИИ-агентов для enterprise одним из обязательных элементов инфраструктуры называют компонент под названием Guardrails. Как было указано в статье “AI as a normal technology”, о которой я писал выше, технологии генеративного ИИ по своей природе не являются точными и не могут гарантировать правильный результат в 100% случаев. LLM подвержены галлюцинациям, атакам типа prompt injection и множеству других проблем. Поэтому вокруг основного ядра, взаимодействующего с LLM, развертываются системы типа Guardrails, которые обеспечивают защиту и стабильную работу модели, не позволяя ей отклоняться от заданных сценариев. Думаю, что такие системы пока находятся на ранней стадии развития. В статье по ссылке ниже описан пример реализации простого прототипа Guardrails-решения. Коллеги сделали базовую реализацию на основе набора правил и стека Python 3.10, FastAPI для API, ChromaDB. Несмотря на простоту, решение показало хорошие результаты на модели Grok (хотя не указано, какая именно версия использовалась — а это важно, поскольку с каждой новой версией модели становятся всё лучше): • Уязвимость к prompt injection-атакам снизилась на 82% благодаря фильтрации. • Токсичность ответов снизилась на 75%; при этом 65% ответов были либо полностью заблокированы, либо модифицированы. https://habr.com/ru/companies/mts_ai/articles/926296/