2025-11-17T01:43:13.245415

Target speaker anonymization in multi-speaker recordings

Tomashenko, Yamagishi, Wang et al.

Most of the existing speaker anonymization research has focused on single-speaker audio, leading to the development of techniques and evaluation metrics optimized for such condition. This study addresses the significant challenge of speaker anonymization within multi-speaker conversational audio, specifically when only a single target speaker needs to be anonymized. This scenario is highly relevant in contexts like call centers, where customer privacy necessitates anonymizing only the customer's voice in interactions with operators. Conventional anonymization methods are often not suitable for this task. Moreover, current evaluation methodology does not allow us to accurately assess privacy protection and utility in this complex multi-speaker scenario. This work aims to bridge these gaps by exploring effective strategies for targeted speaker anonymization in conversational audio, highlighting potential problems in their development and proposing corresponding improved evaluation methodologies.

academic

Target Speaker Anonymization in Multi-Speaker Recordings

基本信息

论文ID: 2510.09307
标题: Target Speaker Anonymization in Multi-Speaker Recordings
作者: Natalia Tomashenko¹, Junichi Yamagishi², Xin Wang², Yun Liu², Emmanuel Vincent¹
机构: ¹Université de Lorraine, CNRS, Inria, Loria, France; ²National Institute of Informatics, Tokyo, Japan
分类: eess.AS (Audio and Speech Processing), cs.CL (Computational Linguistics), cs.CR (Cryptography and Security)
发表时间: 2025年10月10日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.09307

摘要

现有的说话人匿名化研究主要集中在单说话人音频上，导致技术和评估指标都针对这种条件进行了优化。本研究解决了多说话人对话音频中说话人匿名化的重大挑战，特别是仅需要对单个目标说话人进行匿名化的场景。这种场景在呼叫中心等环境中高度相关，客户隐私需要在与接线员的互动中仅对客户声音进行匿名化。传统的匿名化方法往往不适用于此任务。此外，当前的评估方法无法准确评估这种复杂多说话人场景中的隐私保护和实用性。本工作旨在通过探索对话音频中有效的目标说话人匿名化策略来弥补这些差距，突出其开发中的潜在问题并提出相应的改进评估方法。

研究背景与动机

问题定义

本研究要解决的核心问题是在多说话人对话录音中对特定目标说话人进行选择性匿名化，这是一个全新且具有挑战性的任务。传统的说话人匿名化技术主要针对单说话人音频设计，无法有效处理多说话人场景中的选择性匿名化需求。

重要性与应用价值

法律合规需求: 随着GDPR等隐私保护法规的实施，语音数据的隐私保护变得至关重要
实际应用场景: 在呼叫中心、医疗咨询等场景中，需要保护客户隐私而保留服务人员信息
技术挑战: 语音数据包含丰富的个人信息（年龄、性别、健康状况、情感状态等），需要在保护隐私的同时维持语言内容

现有方法局限性

技术局限: 现有匿名化方法无法选择性地针对混合音频中的特定说话人
评估不足: 缺乏针对多说话人场景的隐私保护和实用性评估指标
应用受限: 传统方法在重叠语音和复杂对话场景中效果不佳

核心贡献

提出目标说话人匿名化(TSA)框架: 首次系统性地解决多说话人对话中的选择性匿名化问题
开发综合评估方法: 建立了针对多说话人匿名化场景的隐私保护和实用性评估体系
实验验证与分析: 基于两种最先进的目标说话人提取方法进行了全面的实验评估
识别关键挑战: 深入分析了该任务的固有限制和技术挑战，为未来研究提供指导

方法详解

任务定义

输入: 包含多个说话人的混合音频信号
输出: 仅对目标说话人进行匿名化处理的混合音频
约束: 保持非目标说话人的原始语音不变，维持整体对话的可理解性和实用性

模型架构

TSA框架设计

TSA采用三步管道式方法：

目标说话人提取(TSE):
- 使用预训练的说话人嵌入向量识别目标说话人
- 估计复值软掩码来分离目标说话人的时频谱
- 从混合音频中提取目标说话人的语音段
说话人匿名化:
- 仅对提取的目标说话人语音进行匿名化处理
- 使用基于向量量化瓶颈(VQ-BN)特征的匿名化系统
- 通过HiFi-GAN网络合成匿名化语音
语音重组合:
- 将匿名化的目标说话人语音与原始非目标说话人语音结合
- 生成最终的部分匿名化混合音频