Federated Learning и конфиденциальный анализ данных На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли. Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко. Основные кейсы, которым уделили наибольшее внимание 1. Медицина ⁃ Совместное обучение моделей на медицинских снимках ⁃ Разработка препаратов и клинические испытания ⁃ Изоляция разработчика от данных пациента 2. Финтех ⁃ Обучение скоринговых моделей между банками, телекомами, платёжными системами ⁃ Антифрод-модели ⁃ Кросс-валидация чужих моделей без передачи данных 3. Интернет вещей / Промышленность ⁃ Данные с буровых установок, автопилоты, летательные аппараты ⁃ Нестабильный интернет, вычисления на месте 4. Маркетинг / Реклама ⁃ Совместный анализ долей рынка без раскрытия конкретных данных ⁃ Объединение разрозненных источников без утраты приватности 5. Кибербезопасность Основные подводные камни о которых говорили ⁃ Градиенты утечки: по ним можно восстановить разметку или данные. ⁃ Label-flipping атаки: подмена меток со стороны участников. ⁃ Атаки отравления: изменение качества глобальной модели. ⁃ Сложная настройка open-source фреймворков (Flower, NVFlare) ⁃ Высокий входной порог: требуется команда DevOps + ML + Infosec ⁃ Нет стандартов сертификации (в России — запросы на сертификацию ФСТЭК) ⁃ Трудности с безопасниками и юридическим отделом (непонимание угроз, отсутствие моделей угроз) ⁃ Без продуманного feature engineering и понимания структуры данных объединение малоэффективно. ⁃ Конкатенация признаков из разных доменов (банк + телеком) часто не даёт прироста без доменно-специфичного анализа. ⁃ Нестабильные метрики при увеличении количества источников. Конечно, поговорили об экономике и монетизации. Они для участников являются одними из ключевых факторов, ограничивающих внедрение федеративного обучения. В типичных сценариях наибольшую выгоду от совместного обучения получает участник с ограниченным объёмом данных, в то время как крупные компании с богатыми датасетами рискуют утратить своё конкурентное преимущество, делясь знаниями, пусть и опосредованно. Это приводит к асимметрии интересов и снижает готовность к сотрудничеству. Дополнительно затрудняет ситуацию отсутствие прозрачных механизмов оценки вклада каждого участника: стоимость самих данных абстрактна и сильно зависит от конкретного бизнес-кейса, в то время как ценность создаётся на этапе инференса. Более реалистичной моделью считается монетизация не данных, а результатов — когда доступ к улучшенному предсказанию оплачивается, а вклад в обучение соотносится с его качеством. Однако даже в такой модели остаётся сложной задача расчёта справедливой доли между участниками. Поэтому для широкого распространения FL необходимо не только снижение технического порога, но и появление устойчивых экономических моделей, учитывающих мотивацию всех сторон.