2025-11-14T09:31:11.369506

Pinhole Effect on Linkability and Dispersion in Speaker Anonymization

Lee, Liu, Chen et al.

Speaker anonymization aims to conceal speaker-specific attributes in speech signals, making the anonymized speech unlinkable to the original speaker identity. Recent approaches achieve this by disentangling speech into content and speaker components, replacing the latter with pseudo speakers. The anonymized speech can be mapped either to a common pseudo speaker shared across utterances or to distinct pseudo speakers unique to each utterance. This paper investigates the impact of these mapping strategies on three key dimensions: speaker linkability, dispersion in the anonymized speaker space, and de-identification from the original identity. Our findings show that using distinct pseudo speakers increases speaker dispersion and reduces linkability compared to common pseudo-speaker mapping, thereby enhancing privacy preservation. These observations are interpreted through the proposed pinhole effect, a conceptual framework introduced to explain the relationship between mapping strategies and anonymization performance. The hypothesis is validated through empirical evaluation.

academic

Pinhole Effect on Linkability and Dispersion in Speaker Anonymization

基本信息

论文ID: 2508.17134
标题: Pinhole Effect on Linkability and Dispersion in Speaker Anonymization
作者: Kong Aik Lee (香港理工大学), Zeyan Liu, Liping Chen, Zhenhua Ling (中国科学技术大学)
分类: eess.AS (电气工程与系统科学-音频与语音处理)
发表时间: 2025年10月16日 (arXiv v2)
论文链接: https://arxiv.org/abs/2508.17134v2

摘要

说话人匿名化技术旨在隐藏语音信号中的说话人特定属性，使匿名化后的语音无法与原始说话人身份建立关联。现有方法通过将语音分解为内容和说话人组件，并用伪说话人替换后者来实现这一目标。匿名化语音可以映射到跨语句共享的通用伪说话人，也可以映射到每个语句独有的不同伪说话人。本文研究了这些映射策略对三个关键维度的影响：说话人可关联性、匿名化说话人空间中的离散度，以及与原始身份的去识别化程度。研究发现，使用不同的伪说话人相比通用伪说话人映射，能增加说话人离散度并降低可关联性，从而增强隐私保护。这些观察结果通过提出的"针孔效应"概念框架进行解释，该框架用于阐释映射策略与匿名化性能之间的关系。

研究背景与动机

问题定义

说话人匿名化属于隐私保护技术(PPT)的一个子类，其核心目标是在保留语音中语言和副语言信息的同时，移除或隐藏导致说话人身份推断的语音属性。形式化地，设X为语音信号，说话人匿名化实现从输入到匿名化语音的映射：

f': X ↦ (X\Xv) ∪ Xpseu

其中Xv表示说话人语音属性，Xpseu表示用于替换的伪说话人语音。

研究重要性

实用性需求：匿名化语音数据可直接用于现有的下游语音处理任务（如语音识别、情感识别），无需对系统进行大幅修改
隐私保护：在电视节目访谈、多方对话等场景中保护说话人隐私
技术挑战：现有方法在映射策略选择上缺乏理论指导

现有方法局限性

传统观点认为映射到通用伪说话人会带来更有效的隐私保护，因为所有匿名化语音听起来相似。然而，这一直觉缺乏严格的理论分析和实验验证。

研究动机

本文假设映射到不同伪说话人实际上能降低可关联性，从而增强隐私保护，并通过"针孔效应"理论框架来解释这一现象。

核心贡献

提出针孔效应概念框架：首次引入针孔效应来解释映射策略与匿名化性能之间的关系
理论分析映射策略影响：系统分析了any-to-one和any-to-any映射对说话人可关联性、离散度和去识别化的影响
实验验证假设：使用两个不同的说话人匿名化系统验证了针孔效应的三个核心断言
提供隐私保护指导：为说话人匿名化系统的设计提供了理论指导和实践建议

方法详解

任务定义

说话人匿名化任务的输入是原始语音信号X，输出是匿名化语音信号，要求：

隐私保护：匿名化语音不能被自动说话人验证(ASV)系统成功验证
内容保持：匿名化语音应保持与原始语音相近的自动语音识别(ASR)性能

针孔效应理论框架

核心概念

针孔效应将匿名化过程类比为光线通过针孔的物理现象：

单针孔(any-to-one)：所有光线通过同一针孔，来自同一光源的光线在目标区域聚集
多针孔(any-to-any)：光线通过多个针孔，来自同一光源的光线在目标区域分散

三个核心断言

离散度：any-to-any映射相比any-to-one映射导致匿名化语音说话人表征的更大离散度
可关联性：any-to-any映射降低匿名化语句间的说话人相似度，从而相比any-to-one映射降低可关联性
去识别化：无论针孔数量多少，原始语音和匿名化语音间的说话人相似度无显著差异

实验系统架构

系统1 (SYS1)：基于one-hot向量

ASR声学模型：提取包含语言内容的语音特征
音调跟踪：提取F0特征
向量量化：引入信息瓶颈，减少残留说话人属性
HiFi-GAN声码器：合成匿名化语音
配置：any-to-one使用固定one-hot ID，any-to-any随机分配不同ID

系统2 (SYS2)：基于连续说话人嵌入

架构与SYS1类似，但用连续说话人嵌入替换one-hot向量
any-to-one：使用LibriSpeech train-clean-100平均x-vector嵌入
any-to-any：每个语句使用100个随机选择的x-vector嵌入的平均值

实验设置

数据集

训练数据：LibriSpeech train-clean-100 (28,539个语句，251个说话人)
评估数据：VoicePrivacy 2024 LibriSpeech Dev和Test子集
预训练模型：
- wav2vec2在VoxPopuli上预训练，在LibriSpeech上微调
- x-vector提取器在VoxCeleb-1和VoxCeleb-2上训练