2025-11-16T14:58:12.273411

Inclusive, Differentially Private Federated Learning for Clinical Data

Parampottupadam, CoÅÄun, Pati et al.

Federated Learning (FL) offers a promising approach for training clinical AI models without centralizing sensitive patient data. However, its real-world adoption is hindered by challenges related to privacy, resource constraints, and compliance. Existing Differential Privacy (DP) approaches often apply uniform noise, which disproportionately degrades model performance, even among well-compliant institutions. In this work, we propose a novel compliance-aware FL framework that enhances DP by adaptively adjusting noise based on quantifiable client compliance scores. Additionally, we introduce a compliance scoring tool based on key healthcare and security standards to promote secure, inclusive, and equitable participation across diverse clinical settings. Extensive experiments on public datasets demonstrate that integrating under-resourced, less compliant clinics with highly regulated institutions yields accuracy improvements of up to 15% over traditional FL. This work advances FL by balancing privacy, compliance, and performance, making it a viable solution for real-world clinical workflows in global healthcare.

academic

Inclusive, Differentially Private Federated Learning for Clinical Data

基本信息

论文ID: 2505.22108
标题: Inclusive, Differentially Private Federated Learning for Clinical Data
作者: Santhosh Parampottupadam, Melih Coşğun, Sarthak Pati, Maximilian Zenk, Saikat Roy, Dimitrios Bounias, Benjamin Hamm, Sinem Sav, Ralf Floca, Klaus Maier-Hein
分类: cs.LG cs.AI cs.CR cs.DC
发表时间: arXiv预印本 2025年10月11日
论文链接: https://arxiv.org/abs/2505.22108v3

摘要

联邦学习(FL)为训练临床AI模型提供了一种有前景的方法，无需集中敏感的患者数据。然而，其现实世界的应用受到隐私、资源约束和合规性挑战的阻碍。现有的差分隐私(DP)方法通常应用统一噪声，这会不成比例地降低模型性能，即使在合规性良好的机构中也是如此。本文提出了一种新颖的合规感知FL框架，通过基于可量化的客户端合规分数自适应调整噪声来增强DP。此外，引入了基于关键医疗保健和安全标准的合规评分工具，以促进在不同临床环境中的安全、包容和公平参与。在公共数据集上的大量实验表明，将资源不足、合规性较低的诊所与高度监管的机构整合，相比传统FL可产生高达15%的准确率提升。

研究背景与动机

问题定义

该研究要解决的核心问题是现有联邦学习在医疗领域应用中的三大挑战：

隐私保护不足：传统FL容易受到重建攻击，模型更新可能泄露敏感信息
资源约束排斥：差分隐私实施需要专门硬件，导致资源受限的小型医疗机构无法参与
合规性差异：现有DP方法对所有客户端应用统一噪声，忽略了机构间的合规性差异

研究重要性

医疗AI的发展需要大规模数据协作，但隐私法规(如HIPAA、GDPR)和机构政策限制了数据共享。联邦学习提供了解决方案，但现有方法存在显著局限：

仅5.2%的FL研究涉及真实临床应用
资源受限的医疗机构被边缘化
统一的隐私保护策略效率低下

现有方法局限性

客户端DP：需要专门硬件，增加了参与门槛
服务器端统一DP：对所有客户端应用相同噪声水平，效率低下
信任假设：依赖基于信任的联邦，排除了小型机构

核心贡献

提出合规感知FL框架：基于客户端合规分数自适应调整DP噪声，平衡隐私、合规性和性能
开发合规评分工具：基于医疗保健和安全标准的Web工具，提供可量化的合规分数
实现自适应服务器端DP：使资源受限的诊所能够参与，同时平衡隐私和性能
验证包容性效果：实验证明整合低合规机构可获得1%-15%的准确率提升

方法详解

任务定义

输入：

分布式医疗数据集（各机构本地数据）
客户端合规评分
隐私预算参数

输出：

全局AI模型（保护隐私的协作训练结果）

约束条件：

满足差分隐私保证
适应不同合规水平的机构
最小化资源需求

模型架构

1. 合规评分机制

合规分数计算公式：

Sc = (Σ(wi × si)) / (Σwi)

其中：

n：合规因子总数
wi：因子i的权重
si：因子i的选项分数

2. 自适应噪声计算

噪声乘数公式：

Nm = (1.0 - Sc) + Min_Noise_Multiplier

其中：

Sc：客户端合规分数
Min_Noise_Multiplier：最小噪声乘数(1e-10)

3. 联邦学习流程

算法1：自适应噪声差分隐私联邦学习

1. 初始化全局模型
2. For 联邦轮次 = 1 to 50:
   a. 客户端训练（3个本地epoch）
   b. 发送更新到聚合器
   c. 基于合规分数应用自适应DP噪声
   d. 聚合器训练（1个epoch with DP）
   e. 全局聚合（FedAvg/FedYogi/FedAdam等）
   f. 广播更新的全局模型

技术创新点

1. 合规感知差分隐私

创新：根据客户端合规水平动态调整噪声，而非统一噪声
优势：高合规机构受到较少性能损失，低合规机构仍获得隐私保护

2. 服务器端自适应DP

创新：在服务器端模拟客户端DP效果，降低硬件要求
优势：资源受限机构无需DP专用硬件即可参与

3. 多维合规评估

包含12个合规因子：

数据加密标准（AES-256/AES-128）
道德AI政策（EU AI Act、FDA指导）
隐私法规（HIPAA、GDPR）
数据质量（DICOM标准）
匿名化实践（ISO/TS 25237:2017）
互操作性标准（HL7/FHIR）

实验设置

数据集

PneumoniaMNIST：肺炎检测数据集
BreastMNIST：乳腺癌检测数据集
数据预处理：图像大小调整为128×128，批量大小32
数据分布：16个客户端子集，1个用于聚合器训练，1个用于全局评估

评价指标

准确率（Accuracy）
精确率（Precision）
召回率（Recall）
F1分数

对比方法

Vanilla FL：无DP和合规评分的传统联邦学习
统一服务器端DP：聚合后应用统一噪声
不同聚合策略：FedAvg、FedProx、FedMedian、FedAdam、FedYogi

实现细节

框架：Lightning、Flower、ResNet-18
硬件：NVIDIA Tesla T4 GPU (16GB)
训练参数：学习率0.001，50轮联邦训练，每轮3个本地epoch
DP实现：使用Opacus库，最小噪声水平1e-10

实验结果

主要结果

实验配置对比

实验	合规客户端	非合规客户端	合规应用	DP应用
Exp.1	4	12	是	自适应
Exp.2	10	6	是	自适应
Exp.3	16	0	是	自适应
Exp.4	4	0	否	最小
Exp.5	16	0	否	无
Exp.6	16	0	是	统一

关键发现

包容性效益：实验1（4合规+12非合规）相比实验4（仅4合规）在多数策略上获得1%-15%准确率提升
最佳性能：
- PneumoniaMNIST：FedYogi在实验1达到86.62%
- BreastMNIST：FedYogi在实验1达到75.50%
策略敏感性：FedMedian对合规分布敏感，在高比例低合规客户端时性能下降显著