На прошлом вебинаре про систему мониторинга проектов мы подсветили одну… — @nikitaanddata

На прошлом вебинаре про систему мониторинга проектов мы подсветили одну неприятную практическую проблему: Чтобы не отправлять чувствительные данные (особенно из договоров) в облачные LLM, мы предварительно чистили данные вручную Это работало на пробном внедрении системы, но понятно, что такой процесс долго не проживёт - рано или поздно его нужно автоматизировать Последнюю неделю, включая текущие праздничные выходные, как раз занимался этим куском архитектуры Задача была довольно неприятная на практике: сделать автоматическую маскировку чувствительных данных перед отправкой в cloud LLM, но так, чтобы: • не ломалась семантика текста • система работала полностью на CPU - не возникала необходимость покупать GPU-инфраструктуру ради задачи, которая на нашем масштабе просто не окупается В итоге, получился локальный privacy-gateway, через который теперь проходит любой вызов embeddings и LLM Pipeline выглядит примерно так: → raw текст → детектирование чувствительных сущностей → типизированная псевдонимизация → только после этого отправка в cloud LLM Главный принцип - cloud LLM никогда не получает исходные данные Прикрепил скрины того, как это выглядит на тестовых данных: теги вроде <PERSON>, <ORG> и т.п., которые подменяют реальные данные Как выглядит техническая реализация буду рассказывать 12 марта на оффлайн-митапе в Алматы для ИТ-архитекторов и цифровизаторов, регистрация по ссылке Буду рад пообщаться оффлайн, подходите. Слайды, скорее всего, после выступления выложим

Из этого канала