2025-11-16T01:19:12.319847

Content Anonymization for Privacy in Long-form Audio

Aggazzotti, Garg, Cai et al.

Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.

academic

Content Anonymization for Privacy in Long-form Audio

基本信息

论文ID: 2510.12780
标题: Content Anonymization for Privacy in Long-form Audio
作者: Cristina Aggazzotti, Ashi Garg, Zexin Cai, Nicholas Andrews (Johns Hopkins University)
分类: cs.SD (Sound), cs.CL (Computational Linguistics)
发表时间: 2025年10月14日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.12780

摘要

现有语音匿名化技术在VoicePrivacy Challenge等基准测试中成功地隐藏了说话人在短、孤立语句中的声学身份。然而，在实际应用中，语句很少单独出现：长形式音频在访谈、电话通话和会议等领域很常见。在这些情况下，来自同一说话人的多个语句可用，这带来了更大的隐私风险：攻击者可以利用个人的词汇、语法和表达方式来重新识别他们，即使他们的声音完全被伪装。为了解决这一风险，本文提出了新的内容匿名化方法。该方法在ASR-TTS管道中对转录文本进行上下文重写，以消除说话人特定的风格同时保留语义。研究在长形式电话对话设置中展示了基于内容攻击对语音匿名化语音的有效性，然后展示了所提出的基于内容的匿名化方法如何在保持语音实用性的同时减轻这种风险。

研究背景与动机

问题定义

现有语音匿名化技术主要关注单个语句级别的声学身份隐藏，但在长形式音频场景中面临重大挑战：

长形式音频的普遍性：在访谈、电话通话、会议等实际应用中，音频通常包含同一说话人的多个语句
语言内容作为生物特征侧信道：攻击者可以利用说话人的词汇选择、语法结构、表达习惯等语言特征进行身份识别
现有方法的局限性：仅关注声学信号的匿名化，忽略了语言内容中的身份信息

研究重要性

隐私保护需求：随着语音数据应用的增加，保护说话人身份变得越来越重要
实际应用场景：现有基准测试与实际应用存在gap，需要考虑长形式音频的特殊性
多模态威胁：攻击者可能同时利用声学和语言特征，需要综合防护

现有方法局限性

单一模态防护：仅处理声学特征，忽略语言内容
简单PII处理：只移除明显的个人身份信息，不处理语言风格
语句级别处理：缺乏对长形式音频中语篇结构的考虑

核心贡献

首次系统性研究：首个系统评估长形式音频中基于内容攻击的语音匿名化研究
上下文化改写方法：提出基于滑动窗口的多语句联合改写技术，考虑对话上下文
隐私-效用权衡量化：使用现代生成模型和检测系统量化隐私保护与实用性的权衡
多模型比较：比较了API模型（GPT-4o-mini, GPT-5）和本地模型（Gemma-3-4B）的性能
综合评估框架：建立了包含隐私保护、内容保真度、音频自然度等多维度评估体系

方法详解

任务定义

给定长形式音频录音 $X = (u_1, u_2, ..., u_N)$ （来自源说话人 $s$ ），目标是产生匿名化版本 $X' = g(X)$ ，使其不可归属于 $s$ 。成功的匿名化需要使攻击者的等错误率(EER)达到50%（随机猜测水平）。

模型架构

ASR-TTS匿名化管道

ASR阶段：使用Whisper-medium将原始音频转录为文本
内容匿名化阶段：对转录文本进行改写处理
TTS阶段：使用XTTS合成新的语音，采用伪目标说话人嵌入

内容匿名化方法

1. 逐语句改写（GPT-4o-mini）

独立处理每个语句
适用于较短的语句处理

2. 分段改写（Gemma-3-4B, GPT-5）

处理跨越多个语句的文本段（16个语句或约300个token）
能够捕获和改变更广泛的话语模式
使用滑动窗口提供上下文（N=8个先前语句）

改写策略

PII替换：用虚构但性别一致的信息替换个人身份信息
风格改变：修改语言风格以消除说话人特征
长度调整：压缩内容并改变语句长度
上下文感知：考虑对话历史进行改写

技术创新点

多语句联合改写：突破传统单语句处理限制，考虑语篇结构
上下文窗口机制：利用对话历史提供更准确的改写
本地化方案：提供既保护隐私又实用的本地模型选择
多维度优化：同时考虑隐私保护、语义保真和检测规避

实验设置

数据集

Fisher Speech Corpus：包含近2000小时对话电话语音
实验设置：采用"困难"设置（1944个试验）
- 正样本（959个）：同一说话人的不同主题对话
- 负样本（985个）：不同说话人的相同主题对话
VoxCeleb2：用于生成伪目标说话人嵌入

评价指标

隐私保护指标

等错误率(EER)：攻击者区分同一说话人和不同说话人语音的错误率
目标：EER = 50%（随机猜测水平）

实用性指标

UTMOS：自动预测语音自然度评分（1-5分）
语义相似度：
- 贪婪对齐分数(GAS)
- 动态时间规整相似度(DTW-Sim)

可检测性指标

合成文本检测：使用Binoculars检测器
合成语音检测：使用SSL-AASIST检测器

对比方法

仅音频匿名化：标准ASR-TTS管道，无内容修改
仅内容匿名化：改写内容但保持原始声音
音频+内容匿名化：同时进行内容改写和声音匿名化

攻击模型

语音攻击：WavLM-Base说话人验证模型
内容攻击：LUAR（Learning Universal Authorship Representations）模型

实验结果

主要结果

隐私保护效果

基于内容的攻击威胁：随着语句数量增加，内容攻击的EER从约0.4降至0.1，证明了语言内容的身份识别能力
匿名化效果：所有改写方法都显著提高了EER，使内容攻击接近随机猜测水平
模型比较：分段改写（GPT-5, Gemma3-4B）比逐语句改写（GPT4o-mini）更有效

实用性保持

音频自然度：匿名化语音UTMOS评分为3.14，高于原始录音的2.09
语义保真度：
- GPT-5：GAS=0.699, DTW-Sim=0.739
- Gemma3-4B：GAS=0.648, DTW-Sim=0.582
- GPT4o-mini：GAS=0.678, DTW-Sim=0.702