Federated learning is a common method for privacy-preserving training of machine learning models. In this paper, we analyze the vulnerability of ASR models to attribute inference attacks in the federated setting. We test a non-parametric white-box attack method under a passive threat model on three ASR models: Wav2Vec2, HuBERT, and Whisper. The attack operates solely on weight differentials without access to raw speech from target speakers. We demonstrate attack feasibility on sensitive demographic and clinical attributes: gender, age, accent, emotion, and dysarthria. Our findings indicate that attributes that are underrepresented or absent in the pre-training data are more vulnerable to such inference attacks. In particular, information about accents can be reliably inferred from all models. Our findings expose previously undocumented vulnerabilities in federated ASR models and offer insights towards improved security.
论文ID : 2510.13357标题 : Personal Attribute Leakage in Federated Speech Models作者 : Hamdan Al-Ali, Ali Reza Ghavamipour, Tommaso Caselli, Fatih Turkmen, Zeerak Talat, Hanan Aldarmaki分类 : cs.CL cs.AI发表时间 : 2025年10月15日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.13357v1 联邦学习是机器学习模型隐私保护训练的常用方法。本文分析了联邦环境下ASR模型对属性推理攻击的脆弱性。研究者在被动威胁模型下,对三种ASR模型(Wav2Vec2、HuBERT和Whisper)测试了非参数白盒攻击方法。该攻击仅基于权重差异运行,无需访问目标说话者的原始语音。研究证明了对敏感人口统计学和临床属性(性别、年龄、口音、情绪和构音障碍)进行攻击的可行性。研究发现,预训练数据中代表性不足或缺失的属性更容易受到此类推理攻击。特别是,口音信息可以从所有模型中可靠推断出来。
核心问题 : 联邦学习环境下的ASR模型是否会通过模型权重更新泄露用户的敏感个人属性信息隐私威胁 : 语音数据包含丰富的个人信息,包括人口统计特征(性别、年龄、口音)、临床状况(构音障碍)和情绪状态法律合规 : 属性泄露可能违反GDPR、HIPAA和美国及欧盟的反歧视法律隐私保护 : ADA保护残疾人免受歧视,语音障碍信息泄露具有严重后果实际威胁 : 即使不泄露身份,仅泄露口音或情绪状态等属性也构成严重隐私泄露联邦学习假设 : 虽然联邦学习通过保持原始音频在设备上来改善隐私,但模型更新仍可能泄露敏感信息研究空白 : 之前的工作主要关注说话者重识别和成员推理攻击,但属性泄露的范围仍未充分探索威胁模型 : 缺乏对仅通过权重更新进行属性推理的系统性研究首次系统性研究 : 首次全面分析联邦ASR模型中个人属性泄露的脆弱性多属性评估 : 在五个敏感属性(性别、年龄、口音、情绪、构音障碍)上评估三种主流ASR模型攻击方法 : 提出基于权重差异的非参数白盒攻击方法,无需访问原始语音数据关键发现 : 发现预训练数据中代表性不足的属性更容易泄露,特别是口音信息防护洞察 : 提供通过多样化预训练数据来缓解属性泄露的实证证据研究采用被动服务器端攻击者 模型:
攻击者能力 : 可访问全局模型Wg和目标说话者的本地训练模型Ws攻击限制 : 无法访问原始音频、转录文本或元数据攻击目标 : 仅通过权重差异推断受保护的个人属性训练假设 : 每个模型在单个说话者的单句话语上进行微调使用公开数据集模拟微调过程:
对于每个样本 (xi, yi), i = 1,...,n:
1. 在样本xi上微调全局模型Wg
2. 得到影子模型Wi
3. 构建标记数据集 {(Wi, yi)}
从每个参数张量p ∈ Wi提取统计摘要:
zi = concat([μp, σp, min(p), max(p)] for each p ∈ Wi)
其中zi ∈ Rd是固定长度的特征向量。
计算每个类别的质心:
z̄c = (1/Nc) ∑(i=1 to Nc) zi, where zi ∈ class c
对于目标模型Ws,提取特征向量zs并使用归一化欧氏距离分类:
ĉ = argmin_c (||zs - z̄c||2 / (||zs||2 · ||z̄c||2))
非参数方法 : 不需要训练复杂的分类器,仅使用统计摘要和距离度量权重差异分析 : 直接从模型参数变化中提取属性信息可扩展性 : 方法自然扩展到多类别设置实用性 : 攻击所需的计算资源和数据量相对较少属性 数据集 样本数 说明 性别、年龄、口音 Speech Accent Archive (SAA) 200 控制录音,相同脚本 构音障碍 TORGO 15说话者 8个有障碍,7个正常 情绪 RAVDESS 24说话者 专业演员表演的情绪语音
性别检测 : 200个母语英语说话者,100男100女,75/25训练测试划分年龄检测 : 18-24岁 vs 35-44岁,70个男性说话者,5折交叉验证口音检测 : 200个说话者,母语 vs 非母语英语使用者情绪检测 : 三个二分类任务(平静vs愤怒、快乐vs悲伤、平静vs恐惧)构音障碍检测 : 留一说话者交叉验证Wav2Vec2-Base : 9500万参数,LibriSpeech预训练HuBERT-Large : 3亿参数,LibriSpeech训练Whisper-Small : 2.44亿参数,68万小时多语言数据训练任务 Wav2Vec2 HuBERT Whisper 性别检测 64% 63% 46% 年龄检测 100% 97% 94% 口音检测 100% 80% 93% 构音障碍 59% 76% 81% 情绪:平静vs愤怒 52% 67% 83% 情绪:快乐vs悲伤 50% 54% 75% 情绪:平静vs恐惧 46% 48% 73%
属性差异显著 : 年龄和口音表现出最强的泄露(80-100%准确率),而性别最难预测(46-64%)模型差异 : Whisper在除性别外的所有属性上都表现出>70%的泄露准确率统计显著性 : 年龄检测结果在所有模型上都达到统计显著性(95%置信区间)通过Wav2Vec2的逐层分析发现:
年龄信息 : 在所有层中保持一致的高检测率情绪和构音障碍 : 在中后层表现出更大变异性层特异性 : 某些特定层的性能有时超过全模型推理对10个最常见口音的多类别分类实验:
攻击前 : 所有测试口音达到≥90%准确率防护后 : 在多样化口音数据上微调后,攻击成功率降至<20%泛化能力 : 对未见过的口音(日语、意大利语、德语、波兰语、马其顿语)仍保持高攻击成功率成员推理攻击 : Shokri等人首次提出针对机器学习模型的成员推理攻击协作学习泄露 : Melis等人研究了协作学习中的意外特征泄露语音领域攻击 : 之前的工作主要关注说话者重识别和成员推理传统方法 : 基于原始语音信号的属性识别隐私保护 : 语音数据的敏感性和隐私保护需求本文贡献 : 首次专注于仅通过模型权重进行属性推理脆弱性确认 : 联邦ASR模型确实存在通过权重更新泄露个人属性的风险属性相关性 : 泄露程度与属性在预训练数据中的代表性密切相关防护策略 : 多样化预训练数据可以有效缓解已知属性的泄露风险实验规模 : 某些任务的样本量较小,可能影响结果的泛化性语言限制 : 主要关注英语语音,多语言环境下的泄露情况需进一步研究攻击模型 : 仅考虑被动攻击者,主动攻击可能产生更严重的泄露现实约束 : 单句微调的假设可能不完全符合实际联邦学习场景防护机制 : 开发更有效的隐私保护技术,如差分隐私、安全聚合等多语言研究 : 扩展到多语言和跨语言场景动态防护 : 研究实时检测和防护属性泄露的方法理论分析 : 从理论角度分析属性泄露的根本原因研究意义重大 : 首次系统性揭示联邦ASR模型的属性泄露脆弱性,具有重要的隐私保护意义方法设计合理 : 攻击方法简单有效,威胁模型现实可信实验全面 : 涵盖多种属性、多个模型和详细的分析实验洞察深刻 : 发现预训练数据多样性与隐私保护的重要关联实用价值 : 为联邦学习系统的隐私保护提供了重要指导数据集限制 : 部分实验使用的数据集规模较小,可能影响结果的统计可靠性攻击假设 : 单句微调的假设过于简化,实际应用中通常使用更多数据防护评估 : 对防护方法的评估相对有限,需要更全面的安全性分析计算复杂度 : 未详细分析攻击的计算成本和可行性学术贡献 : 为联邦学习隐私研究开辟了新方向,预期将引发更多相关研究实践指导 : 为工业界部署联邦ASR系统提供重要的安全考量政策影响 : 研究结果可能影响相关隐私保护法规的制定和实施技术推动 : 促进更安全的联邦学习算法和隐私保护技术的发展联邦ASR系统 : 直接适用于各种联邦语音识别应用的安全评估隐私审计 : 可作为隐私保护系统的安全审计工具模型设计 : 为设计更安全的语音模型提供重要参考监管合规 : 帮助组织评估和确保语音AI系统的合规性Baevski et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." NeurIPS 2020. Hsu et al. "HuBERT: Self-supervised speech representation learning by masked prediction of hidden units." IEEE/ACM TASLP 2021. Radford et al. "Robust speech recognition via large-scale weak supervision." ICML 2023. Shokri et al. "Membership inference attacks against machine learning models." IEEE S&P 2017. Melis et al. "Exploiting unintended feature leakage in collaborative learning." IEEE S&P 2019. 本论文揭示了联邦学习在语音领域的重要隐私风险,为构建更安全的语音AI系统提供了宝贵的洞察和指导。研究不仅具有重要的学术价值,更对实际应用具有深远的影响意义。