2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman

We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.

academic

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

基本信息

论文ID: 2501.01401
标题: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
作者: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (牛津大学VGG组)
分类: eess.AS (电气工程和系统科学-音频和语音处理)
发表时间: 2025年1月2日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.01401

摘要

本文提出了一种基于Transformer的架构，用于从多个说话者和环境噪声中分离目标说话者的声音。该方法使用两个独立的神经网络：(A) 一个注册网络，利用音频和视觉模态的各种组合来生成说话者特定的嵌入向量；(B) 一个分离网络，接受噪声信号和注册向量作为输入，输出目标说话者的干净信号。主要创新点包括：(i) 注册向量可以从仅音频、音视频数据（使用唇部运动）或仅视觉数据（使用静默视频的唇部运动）生成；(ii) 在分离过程中使用多个正负注册向量进行条件化的灵活性。

研究背景与动机

问题定义

语音分离是音频处理中的核心挑战，特别是在噪声环境和多说话者场景中。现有应用如助听器、语音激活系统和视频会议都严重依赖于语音分离的性能。

现有方法的局限性

基于音频嵌入的方法：如VoiceFilter等方法依赖于干净、无噪声的音频来生成说话者嵌入，这在实际噪声环境中难以获得。
音视频方法：如Looking to Listen、VoiceFormer等方法虽然利用了视觉线索（唇部运动），但需要在分离过程中持续获得视觉信息，当视觉数据被遮挡或缺失时性能下降。

研究动机

本文旨在结合音频和视觉条件化方法的优势，同时规避各自的固有挑战。通过两阶段设计：注册阶段可以利用多模态信息生成鲁棒的说话者表示，而分离阶段仅依赖音频数据，提高了计算效率和对视觉信息变化的鲁棒性。

核心贡献

多模态注册网络：提出了能够处理音频、音视频和纯视觉输入的说话者嵌入网络，特别是创新性地支持仅从静默视频生成注册向量。
正负样本条件化：引入了同时使用正样本（目标说话者）和负样本（非目标说话者）注册向量的对比学习机制。
两阶段架构优势：分离阶段完全不依赖视觉信息，解决了传统音视频方法在视觉信息缺失时的局限性。
性能提升：在LRS3和LibriSpeech数据集上达到了优于现有方法的性能。

方法详解

任务定义

给定包含目标说话者、其他说话者和环境噪声的混合音频信号，目标是分离出具有特定声学特征的目标说话者的语音成分，同时过滤掉竞争声音和环境噪声。

模型架构

1. 说话者注册网络

音频专用网络（图1a）：

使用预训练的ECAPA-TDNN模型作为说话者特征提取器
输入：干净音频的频谱图 $S(f,t) = STFT(a_c)$
输出：192维说话者嵌入 $S_{ac} \in \mathbb{R}^{192}$

音视频网络（图1b）：

音频编码： $E_a \in \mathbb{R}^{t_a \times 768}$
视频编码（唇部运动）： $E_v \in \mathbb{R}^{t_v \times 512}$
人脸图像编码： $E_f \in \mathbb{R}^{128}$
特征融合： $F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}$
通过三层Transformer编码器处理融合特征
输出：192维注册向量 $S_{avf} \in \mathbb{R}^{192}$

纯视觉网络（图1b）：

仅使用视觉信息（唇部运动和/或人脸图像）
输出： $S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))$

2. 说话者分离网络

基于VoiceFormer架构，包含音频编码器-解码器和说话者嵌入编码器
输入：噪声音频波形和多个正负注册向量
使用三层Transformer编码器融合音频和说话者编码
通过注意力机制增强匹配目标说话者的特征，抑制非目标说话者特征
编码器-解码器间的跳跃连接保留低级和高级信息

技术创新点

知识蒸馏训练策略：音视频注册网络通过知识蒸馏学习模仿音频专用网络的输出，确保不同模态间的一致性。
多模态灵活性：支持从不同模态组合生成注册向量，包括创新的纯视觉模式。
对比学习机制：同时使用正负样本提供更强的说话者区分能力。

实验设置

数据集

LRS3：来自公开TEDx视频的大规模音视频数据集，包含多样化的说话风格和主题
LibriSpeech：来自公共领域有声读物的大规模纯音频数据集
测试集中的说话者在训练过程中未见过，确保泛化能力评估

评价指标

SDR (Signal-to-Distortion Ratio)：衡量分离输出的质量
STOI (Short-Time Objective Intelligibility)：量化信号可懂度
PESQ (Perceptual Evaluation of Speech Quality)：反映听者感知的感知评分

对比方法

音频方法：VoiceFilter
音视频方法：Conversation、VisualVoice、VoiceFormer

实现细节

使用PyTorch实现
视频数据：25 FPS，面部裁剪至说话者嘴部区域
音频：单声道，16kHz采样率
Transformer：3层，8个注意力头，模型维度532
训练数据：4秒音频片段，随机裁剪并应用速度、音调、分贝调整等数据增强

实验结果

主要结果

正负嵌入向量效果（表1）：

配置	1P-0N	1P-1N	3P-2N	3P-3N
SDR↑	13.8	14.0	14.4	14.5

结果表明增加正负注册向量数量能够提升分离性能。

多模态比较（表2）：

模态	音频	视觉	SDR↑	STOI↑	PESQ↑
干净音频	✓	✗	14.4	91	2.52
干净音频+唇部	✓	✓	14.5	91	2.55
噪声音频	✓	✗	6.3	58	1.82
噪声音频+唇部	✓	✓	13.7	88	2.45
仅唇部运动	✗	✓	11.1	77	2.25
唇部+人脸	✗	✓	12.0	80	2.35