Federated Learning и конфиденциальный анализ данных На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли. Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко. Основные кейсы, которым уделили наибольшее внимание 1. Медицина ⁃ Совместное обучение моделей на медицинских снимках ⁃ Разработка препаратов и клинические испытания ⁃ Изоляция разработчика от данных пациента 2. Финтех ⁃ Обучение скоринговых моделей между банками, телекомами, платёжными системами ⁃ Антифрод-модели ⁃ Кросс-валидация чужих моделей без передачи данных 3. Интернет вещей / Промышленность ⁃ Данные с буровых установок, автопилоты, летательные аппараты ⁃ Нестабильный интернет, вычисления на месте 4. Маркетинг / Реклама ⁃ Совместный анализ долей рынка без раскрытия конкретных данных ⁃ Объединение разрозненных источников без утраты приватности 5. Кибербезопасность Основные подводные камни о которых говорили ⁃ Градиенты утечки: по ним можно восстановить разметку или данные. ⁃ Label-flipping атаки: подмена меток со стороны участников. ⁃ Атаки отравления: изменение качества глобальной модели. ⁃ Сложная настройка open-source фреймворков (Flower, NVFlare) ⁃ Высокий входной порог: требуется команда DevOps + ML + Infosec ⁃ Нет стандартов сертификации (в России — запросы на сертификацию ФСТЭК) ⁃ Трудности с безопасниками и юридическим отделом (непонимание угроз, отсутствие моделей угроз) ⁃ Без продуманного feature engineering и понимания структуры данных объединение малоэффективно. ⁃ Конкатенация признаков из разных доменов (банк + телеком) часто не даёт прироста без доменно-специфичного анализа. ⁃ Нестабильные метрики при увеличении количества источников. Конечно, поговорили об экономике и монетизации. Они для участников являются одними из ключевых факторов, ограничивающих внедрение федеративного обучения. В типичных сценариях наибольшую выгоду от совместного обучения получает участник с ограниченным объёмом данных, в то время как крупные компании с богатыми датасетами рискуют утратить своё конкурентное преимущество, делясь знаниями, пусть и опосредованно. Это приводит к асимметрии интересов и снижает готовность к сотрудничеству. Дополнительно затрудняет ситуацию отсутствие прозрачных механизмов оценки вклада каждого участника: стоимость самих данных абстрактна и сильно зависит от конкретного бизнес-кейса, в то время как ценность создаётся на этапе инференса. Более реалистичной моделью считается монетизация не данных, а результатов — когда доступ к улучшенному предсказанию оплачивается, а вклад в обучение соотносится с его качеством. Однако даже в такой модели остаётся сложной задача расчёта справедливой доли между участниками. Поэтому для широкого распространения FL необходимо не только снижение технического порога, но и появление устойчивых экономических моделей, учитывающих мотивацию всех сторон.
Federated Learning и конфиденциальный анализ данных На прошлой неделе при…
Из этого канала
- #2323Федеративное обучение (Federated Learning, FL) представляет собой перспективный…
Федеративное обучение (Federated Learning, FL) представляет собой перспективный подход к обучению моделей на распределённых данных без их передачи, что делает…
- #2324И если кому то интересно/полезно, так же оформил этот материал в виде небольшой…
И если кому то интересно/полезно, так же оформил этот материал в виде небольшой обзорной статьи На прошлой неделе при поддержке канала @nomlcommunity…
- #2325Data Governance in Lakehouse Using Open Source Tools Статья Джунаида Эффенди…
Data Governance in Lakehouse Using Open Source Tools Статья Джунаида Эффенди «Data Governance in Lakehouse Using Open Source Tools» посвящена созданию…
- #2321"Для любителей футбола и данных - послушал в выходные довольно интересный…
"Для любителей футбола и данных - послушал в выходные довольно интересный подкаст Liverpool FC's Data Revolution - Dr Ian Graham on Mo Salah, Virgil van Dijk &…
- #2320Дайджест статей How Meta understands data at scale…
Дайджест статей How Meta understands data at scale https://engineering.fb.com/2025/04/28/security/how-meta-understands-data-at-scale/?utmsource=tldrai База для…