2025-11-17T01:43:13.245415

Target speaker anonymization in multi-speaker recordings

Tomashenko, Yamagishi, Wang et al.
Most of the existing speaker anonymization research has focused on single-speaker audio, leading to the development of techniques and evaluation metrics optimized for such condition. This study addresses the significant challenge of speaker anonymization within multi-speaker conversational audio, specifically when only a single target speaker needs to be anonymized. This scenario is highly relevant in contexts like call centers, where customer privacy necessitates anonymizing only the customer's voice in interactions with operators. Conventional anonymization methods are often not suitable for this task. Moreover, current evaluation methodology does not allow us to accurately assess privacy protection and utility in this complex multi-speaker scenario. This work aims to bridge these gaps by exploring effective strategies for targeted speaker anonymization in conversational audio, highlighting potential problems in their development and proposing corresponding improved evaluation methodologies.
academic

Target Speaker Anonymization in Multi-Speaker Recordings

基本信息

  • 论文ID: 2510.09307
  • 标题: Target Speaker Anonymization in Multi-Speaker Recordings
  • 作者: Natalia Tomashenko¹, Junichi Yamagishi², Xin Wang², Yun Liu², Emmanuel Vincent¹
  • 机构: ¹Université de Lorraine, CNRS, Inria, Loria, France; ²National Institute of Informatics, Tokyo, Japan
  • 分类: eess.AS (Audio and Speech Processing), cs.CL (Computational Linguistics), cs.CR (Cryptography and Security)
  • 发表时间: 2025年10月10日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.09307

摘要

现有的说话人匿名化研究主要集中在单说话人音频上,导致技术和评估指标都针对这种条件进行了优化。本研究解决了多说话人对话音频中说话人匿名化的重大挑战,特别是仅需要对单个目标说话人进行匿名化的场景。这种场景在呼叫中心等环境中高度相关,客户隐私需要在与接线员的互动中仅对客户声音进行匿名化。传统的匿名化方法往往不适用于此任务。此外,当前的评估方法无法准确评估这种复杂多说话人场景中的隐私保护和实用性。本工作旨在通过探索对话音频中有效的目标说话人匿名化策略来弥补这些差距,突出其开发中的潜在问题并提出相应的改进评估方法。

研究背景与动机

问题定义

本研究要解决的核心问题是在多说话人对话录音中对特定目标说话人进行选择性匿名化,这是一个全新且具有挑战性的任务。传统的说话人匿名化技术主要针对单说话人音频设计,无法有效处理多说话人场景中的选择性匿名化需求。

重要性与应用价值

  1. 法律合规需求: 随着GDPR等隐私保护法规的实施,语音数据的隐私保护变得至关重要
  2. 实际应用场景: 在呼叫中心、医疗咨询等场景中,需要保护客户隐私而保留服务人员信息
  3. 技术挑战: 语音数据包含丰富的个人信息(年龄、性别、健康状况、情感状态等),需要在保护隐私的同时维持语言内容

现有方法局限性

  1. 技术局限: 现有匿名化方法无法选择性地针对混合音频中的特定说话人
  2. 评估不足: 缺乏针对多说话人场景的隐私保护和实用性评估指标
  3. 应用受限: 传统方法在重叠语音和复杂对话场景中效果不佳

核心贡献

  1. 提出目标说话人匿名化(TSA)框架: 首次系统性地解决多说话人对话中的选择性匿名化问题
  2. 开发综合评估方法: 建立了针对多说话人匿名化场景的隐私保护和实用性评估体系
  3. 实验验证与分析: 基于两种最先进的目标说话人提取方法进行了全面的实验评估
  4. 识别关键挑战: 深入分析了该任务的固有限制和技术挑战,为未来研究提供指导

方法详解

任务定义

输入: 包含多个说话人的混合音频信号
输出: 仅对目标说话人进行匿名化处理的混合音频
约束: 保持非目标说话人的原始语音不变,维持整体对话的可理解性和实用性

模型架构

TSA框架设计

TSA采用三步管道式方法:

  1. 目标说话人提取(TSE):
    • 使用预训练的说话人嵌入向量识别目标说话人
    • 估计复值软掩码来分离目标说话人的时频谱
    • 从混合音频中提取目标说话人的语音段
  2. 说话人匿名化:
    • 仅对提取的目标说话人语音进行匿名化处理
    • 使用基于向量量化瓶颈(VQ-BN)特征的匿名化系统
    • 通过HiFi-GAN网络合成匿名化语音
  3. 语音重组合:
    • 将匿名化的目标说话人语音与原始非目标说话人语音结合
    • 生成最终的部分匿名化混合音频

目标说话人提取模型

Conformer-based TSE:

  • 结合卷积层和自注意力机制处理STFT频谱
  • 重构目标说话人STFT频谱的实部和虚部
  • 集成说话人嵌入来识别和聚焦目标说话人

WeSep BSRNN TSE:

  • 将音频频谱显式分割为多个频带
  • 对每个频带的独特频谱特征进行细粒度建模
  • 基于带分割循环神经网络架构

技术创新点

  1. 首创性框架: 首次提出针对多说话人场景的目标说话人匿名化完整解决方案
  2. 模块化设计: TSE和匿名化模块的解耦设计,便于优化和替换
  3. 评估体系创新: 引入tcpWER等新指标,全面评估隐私保护和实用性
  4. 攻击者建模: 考虑半知情攻击者场景,提供更现实的隐私评估

实验设置

数据集

  • SparseLibri2Mix: 基于LibriSpeech test-clean子集构建的多说话人数据集
  • 重叠条件: 5种不同重叠程度(20%, 40%, 60%, 80%, 100%)
  • 数据规模: 每种条件500个混合文件,共2500个文件(约5小时语音)
  • 说话人数量: 40个说话人,第一个说话人作为目标说话人

评价指标

隐私保护评估

  • 等错误率(EER): 使用自动说话人验证(ASV)系统评估匿名化效果
  • 攻击者模型: 半知情攻击者,可访问匿名化系统和训练数据

实用性评估

  • 主要指标: 时间约束最小置换词错误率(tcpWER)
  • 辅助指标:
    • 话者分离错误率(DER)
    • 目标说话人ASR的词错误率(WER)
    • 尺度不变信号失真比(SI-SDR)

对比方法

  • 匿名化系统: VoicePrivacy 2024 Challenge的B5基线系统
  • TSE模型: Conformer-based TSE vs. WeSep BSRNN TSE
  • 评估模型: ECAPA-TDNN ASV系统、DiCoW ASR系统

实验结果

主要结果

TSE模型性能对比

重叠率(%)20406080100平均
Conformer TSE17.915.814.614.014.015.3
WeSep BSRNN TSE18.617.517.216.716.217.2

隐私保护效果

  • 单说话人场景: 匿名化后EER从3.0%提升至32.4%
  • 多说话人场景:
    • Conformer TSE: 平均EER 36.4%
    • WeSep BSRNN TSE: 平均EER 36.9%
  • 隐私提升: 相比单说话人场景提升12-14%

实用性保持

  • tcpWER结果:
    • Conformer TSE: 平均17.8%
    • WeSep BSRNN TSE: 平均14.6%(更优)
  • DER结果: WeSep BSRNN在所有重叠条件下均优于Conformer

消融实验

TSE质量影响

  1. 原始信号提取: TSE过程导致EER和WER相对原始混合信号显著下降
  2. 匿名化影响: 匿名化后WER进一步增加,主要由于非目标说话人残留信号造成的插入错误
  3. 重叠程度影响: 随着重叠程度增加,TSE性能下降,但隐私保护效果相对稳定

攻击者策略分析

  • 参考信号选择: 使用原始参考信号的攻击效果优于使用匿名化参考信号
  • TSE模型一致性: 攻击者使用与用户相同的TSE模型时攻击效果最佳

实验发现

  1. TSE是关键瓶颈: TSE质量直接影响最终的隐私保护和实用性
  2. 重叠语音挑战: 高重叠率条件下TSE性能下降明显
  3. 插入错误问题: 非目标说话人残留信号导致ASR插入错误增加
  4. 隐私-实用性权衡: 存在隐私保护与语音实用性之间的固有权衡

相关工作

说话人匿名化研究

  1. 信号处理方法: McAdams系数、音调偏移等简单变换方法
  2. 神经语音转换方法: 基于解耦表示学习的匿名化技术
  3. VoicePrivacy挑战赛: 推动了单说话人匿名化技术的发展

目标说话人提取

  1. 深度学习方法: 基于深度神经网络的语音分离技术
  2. 注意力机制: 利用说话人嵌入引导的注意力机制
  3. 频带分割技术: BSRNN等先进的频域处理方法

多说话人场景研究

现有多说话人匿名化研究极其有限,本文是该领域的开创性工作。

结论与讨论

主要结论

  1. 技术可行性: TSA框架能够在多说话人场景中实现目标说话人的选择性匿名化
  2. 性能权衡: 存在隐私保护、语音质量和计算复杂度之间的权衡
  3. 评估重要性: 新的评估指标对准确评估多说话人匿名化效果至关重要
  4. 改进空间: 当前方法在实用性保持方面仍有显著改进空间

局限性

  1. TSE依赖: 方法性能严重依赖于TSE模块的质量
  2. 计算复杂度: 三步管道增加了系统复杂度和计算开销
  3. 实用性下降: tcpWER相比原始音频有明显下降
  4. 数据集限制: 实验仅在模拟数据集上进行,缺乏真实对话数据验证

未来方向

  1. 端到端训练: 联合训练TSE和匿名化模块以优化整体性能
  2. 改进TSE: 开发专门针对匿名化任务优化的TSE模型
  3. 实时处理: 探索实时或近实时的TSA解决方案
  4. 多模态匿名化: 结合视觉信息的多模态隐私保护

深度评价

优点

  1. 创新性强: 首次系统性地解决多说话人目标匿名化问题,填补了重要研究空白
  2. 方法完整: 提供了从技术框架到评估方法的完整解决方案
  3. 实验充分: 多种TSE模型、多个重叠条件的全面对比实验
  4. 分析深入: 详细分析了各个模块的贡献和系统的局限性
  5. 实际意义: 解决了呼叫中心等实际应用场景的迫切需求

不足

  1. 性能限制: tcpWER相比原始音频下降较多,实用性有待提升
  2. 计算效率: 三步管道的计算复杂度较高,不利于实时应用
  3. 数据局限: 缺乏在真实对话数据上的验证
  4. 攻击模型: 攻击者模型相对简单,未考虑更复杂的攻击策略
  5. 隐私评估: EER 36-37%的结果表明仍存在隐私泄露风险

影响力

  1. 学术贡献: 开创了多说话人目标匿名化这一新研究方向
  2. 实用价值: 为呼叫中心、医疗等行业提供了隐私保护解决方案
  3. 技术推动: 推动了TSE和语音匿名化技术的融合发展
  4. 标准制定: 为相关评估标准和基准的制定提供了参考

适用场景

  1. 呼叫中心: 保护客户隐私同时保留服务质量分析能力
  2. 医疗咨询: 匿名化患者语音用于医学研究和培训
  3. 法律录音: 保护当事人隐私的法庭录音处理
  4. 教育培训: 匿名化学生语音用于教学和研究目的

参考文献

本文引用了31篇相关文献,涵盖了语音隐私保护、说话人匿名化、目标说话人提取、自动语音识别等多个相关领域的重要工作,为研究提供了坚实的理论基础。


总体评价: 这是一篇高质量的研究论文,在多说话人语音隐私保护这一重要且具有挑战性的问题上做出了开创性贡献。虽然在技术性能上仍有改进空间,但其创新的框架设计、全面的评估方法和深入的分析为该领域的后续研究奠定了重要基础。