На прошлом вебинаре про систему мониторинга проектов мы подсветили одну неприятную практическую проблему: Чтобы не отправлять чувствительные данные (особенно из договоров) в облачные LLM, мы предварительно чистили данные вручную Это работало на пробном внедрении системы, но понятно, что такой процесс долго не проживёт - рано или поздно его нужно автоматизировать Последнюю неделю, включая текущие праздничные выходные, как раз занимался этим куском архитектуры Задача была довольно неприятная на практике: сделать автоматическую маскировку чувствительных данных перед отправкой в cloud LLM, но так, чтобы: • не ломалась семантика текста • система работала полностью на CPU - не возникала необходимость покупать GPU-инфраструктуру ради задачи, которая на нашем масштабе просто не окупается В итоге, получился локальный privacy-gateway, через который теперь проходит любой вызов embeddings и LLM Pipeline выглядит примерно так: → raw текст → детектирование чувствительных сущностей → типизированная псевдонимизация → только после этого отправка в cloud LLM Главный принцип - cloud LLM никогда не получает исходные данные Прикрепил скрины того, как это выглядит на тестовых данных: теги вроде <PERSON>, <ORG> и т.п., которые подменяют реальные данные Как выглядит техническая реализация буду рассказывать 12 марта на оффлайн-митапе в Алматы для ИТ-архитекторов и цифровизаторов, регистрация по ссылке Буду рад пообщаться оффлайн, подходите. Слайды, скорее всего, после выступления выложим
На прошлом вебинаре про систему мониторинга проектов мы подсветили одну…
Источник
https://t.me/nikitaanddata/47Канал Никита Сусоев - про AI и данные · опубликовано 9 мар. 2026 г.
Из этого канала
- #50Google выпустил мультимодальную embedding-модель: Gemini Embedding 2 Работает с…
Google выпустил мультимодальную embedding-модель: Gemini Embedding 2 Работает с текстом, изображениями, видео, аудио и PDF В бенчмарках обходит всех…
- #51Поездка на 4-ю встречу IT-архитекторов в рамках ArchConnect в Алматы выдалась…
Поездка на 4-ю встречу IT-архитекторов в рамках ArchConnect в Алматы выдалась отличной: интересные спикеры и участники С нетерпением жду следующей сходки в…
- #55Разработчики AI-ready data platform, которую используют в Byte Dance (TikTok,…
Разработчики AI-ready data platform, которую используют в Byte Dance (TikTok, CapCut), Xiaomi, Baidu, Kling AI, JD.com, MiniMax наконец-то официально объявили…
- #46Тем временем, марафон вебинаров в Datanomix продолжается: Завтра расскажем про…
Тем временем, марафон вебинаров в Datanomix продолжается: Завтра расскажем про архитектуру нашего нового AI продукта: https://bids.do/ru Регистрация доступна…
- #45"Google разработала свой Agent Development Kit и запустила соответствующую…
"Google разработала свой Agent Development Kit и запустила соответствующую инфраструктуру, внутрь которой можно нативно деплоить разработанных агентов на этом…