2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman
We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
academic

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

基本信息

  • 论文ID: 2501.01401
  • 标题: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
  • 作者: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (牛津大学VGG组)
  • 分类: eess.AS (电气工程和系统科学-音频和语音处理)
  • 发表时间: 2025年1月2日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.01401

摘要

本文提出了一种基于Transformer的架构,用于从多个说话者和环境噪声中分离目标说话者的声音。该方法使用两个独立的神经网络:(A) 一个注册网络,利用音频和视觉模态的各种组合来生成说话者特定的嵌入向量;(B) 一个分离网络,接受噪声信号和注册向量作为输入,输出目标说话者的干净信号。主要创新点包括:(i) 注册向量可以从仅音频、音视频数据(使用唇部运动)或仅视觉数据(使用静默视频的唇部运动)生成;(ii) 在分离过程中使用多个正负注册向量进行条件化的灵活性。

研究背景与动机

问题定义

语音分离是音频处理中的核心挑战,特别是在噪声环境和多说话者场景中。现有应用如助听器、语音激活系统和视频会议都严重依赖于语音分离的性能。

现有方法的局限性

  1. 基于音频嵌入的方法:如VoiceFilter等方法依赖于干净、无噪声的音频来生成说话者嵌入,这在实际噪声环境中难以获得。
  2. 音视频方法:如Looking to Listen、VoiceFormer等方法虽然利用了视觉线索(唇部运动),但需要在分离过程中持续获得视觉信息,当视觉数据被遮挡或缺失时性能下降。

研究动机

本文旨在结合音频和视觉条件化方法的优势,同时规避各自的固有挑战。通过两阶段设计:注册阶段可以利用多模态信息生成鲁棒的说话者表示,而分离阶段仅依赖音频数据,提高了计算效率和对视觉信息变化的鲁棒性。

核心贡献

  1. 多模态注册网络:提出了能够处理音频、音视频和纯视觉输入的说话者嵌入网络,特别是创新性地支持仅从静默视频生成注册向量。
  2. 正负样本条件化:引入了同时使用正样本(目标说话者)和负样本(非目标说话者)注册向量的对比学习机制。
  3. 两阶段架构优势:分离阶段完全不依赖视觉信息,解决了传统音视频方法在视觉信息缺失时的局限性。
  4. 性能提升:在LRS3和LibriSpeech数据集上达到了优于现有方法的性能。

方法详解

任务定义

给定包含目标说话者、其他说话者和环境噪声的混合音频信号,目标是分离出具有特定声学特征的目标说话者的语音成分,同时过滤掉竞争声音和环境噪声。

模型架构

1. 说话者注册网络

音频专用网络(图1a)

  • 使用预训练的ECAPA-TDNN模型作为说话者特征提取器
  • 输入:干净音频的频谱图 S(f,t)=STFT(ac)S(f,t) = STFT(a_c)
  • 输出:192维说话者嵌入 SacR192S_{ac} \in \mathbb{R}^{192}

音视频网络(图1b)

  • 音频编码:EaRta×768E_a \in \mathbb{R}^{t_a \times 768}
  • 视频编码(唇部运动):EvRtv×512E_v \in \mathbb{R}^{t_v \times 512}
  • 人脸图像编码:EfR128E_f \in \mathbb{R}^{128}
  • 特征融合:F(Ea,Ev,Ef)=(Ea;Ev;Ef)R(ta+tv+1)×768F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}
  • 通过三层Transformer编码器处理融合特征
  • 输出:192维注册向量 SavfR192S_{avf} \in \mathbb{R}^{192}

纯视觉网络(图1b)

  • 仅使用视觉信息(唇部运动和/或人脸图像)
  • 输出:Svf=SpeakerExtractor(Transformer([Ev;Ef]))S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))

2. 说话者分离网络

  • 基于VoiceFormer架构,包含音频编码器-解码器和说话者嵌入编码器
  • 输入:噪声音频波形和多个正负注册向量
  • 使用三层Transformer编码器融合音频和说话者编码
  • 通过注意力机制增强匹配目标说话者的特征,抑制非目标说话者特征
  • 编码器-解码器间的跳跃连接保留低级和高级信息

技术创新点

  1. 知识蒸馏训练策略:音视频注册网络通过知识蒸馏学习模仿音频专用网络的输出,确保不同模态间的一致性。
  2. 多模态灵活性:支持从不同模态组合生成注册向量,包括创新的纯视觉模式。
  3. 对比学习机制:同时使用正负样本提供更强的说话者区分能力。

实验设置

数据集

  • LRS3:来自公开TEDx视频的大规模音视频数据集,包含多样化的说话风格和主题
  • LibriSpeech:来自公共领域有声读物的大规模纯音频数据集
  • 测试集中的说话者在训练过程中未见过,确保泛化能力评估

评价指标

  • SDR (Signal-to-Distortion Ratio):衡量分离输出的质量
  • STOI (Short-Time Objective Intelligibility):量化信号可懂度
  • PESQ (Perceptual Evaluation of Speech Quality):反映听者感知的感知评分

对比方法

  • 音频方法:VoiceFilter
  • 音视频方法:Conversation、VisualVoice、VoiceFormer

实现细节

  • 使用PyTorch实现
  • 视频数据:25 FPS,面部裁剪至说话者嘴部区域
  • 音频:单声道,16kHz采样率
  • Transformer:3层,8个注意力头,模型维度532
  • 训练数据:4秒音频片段,随机裁剪并应用速度、音调、分贝调整等数据增强

实验结果

主要结果

正负嵌入向量效果(表1)

配置1P-0N1P-1N3P-2N3P-3N
SDR↑13.814.014.414.5

结果表明增加正负注册向量数量能够提升分离性能。

多模态比较(表2)

模态音频视觉SDR↑STOI↑PESQ↑
干净音频14.4912.52
干净音频+唇部14.5912.55
噪声音频6.3581.82
噪声音频+唇部13.7882.45
仅唇部运动11.1772.25
唇部+人脸12.0802.35

与SOTA方法比较(表3)

方法数据集SDR↑STOI↑PESQ↑
VoiceFormerLRS314.4922.42
VoiceVectorLRS314.5912.52
VoiceFilterLibriSpeech12.6--
VoiceVectorLibriSpeech13.1892.12

关键发现

  1. 纯视觉模式的有效性:仅使用唇部运动就能达到SDR 11.1的性能,证明了视觉信息的重要性。
  2. 噪声鲁棒性:当结合视觉线索时,噪声音频的性能从SDR 6.3大幅提升至13.7。
  3. 跨数据集泛化:在未训练过的LibriSpeech数据集上仍能超越基线方法。

相关工作

主要研究方向

  1. 多模态条件化方法:利用视觉线索(主要是唇部运动)指导分离
  2. 说话者特定嵌入方法:基于干净语音样本生成说话者嵌入进行条件化

本文优势

  • 相比传统音视频方法:分离阶段不需要视觉信息,提高了鲁棒性和计算效率
  • 相比纯音频方法:通过多模态注册向量提供更强的说话者区分能力
  • 引入负样本机制:相比之前仅使用正样本的方法,提供了更好的对比学习效果

结论与讨论

主要结论

  1. 提出的两阶段架构成功结合了音频和视觉条件化的优势
  2. 多模态注册向量在各种场景下都表现出良好的性能
  3. 正负样本的对比学习机制有效提升了分离性能
  4. 在标准数据集上达到了优于现有方法的性能

局限性

  1. 合成数据依赖:主要在合成混合音频上训练和测试,与真实世界噪声环境可能存在域差距
  2. 视觉质量要求:纯视觉模式仍需要清晰的唇部运动视频
  3. 计算复杂度:两阶段架构增加了整体系统复杂度

未来方向

  1. 在真实噪声环境中的验证和优化
  2. 探索更多视觉模态(如手势、表情)的融合
  3. 端到端优化策略的进一步研究

深度评价

优点

  1. 技术创新性强:首次实现纯视觉模态的说话者注册,为视觉语音处理开辟了新方向
  2. 架构设计合理:两阶段设计巧妙平衡了性能和实用性
  3. 实验充分:涵盖多种模态组合和对比方法的全面评估
  4. 性能提升明显:在多个指标上超越现有SOTA方法

不足

  1. 真实场景验证不足:主要基于合成数据,缺乏真实噪声环境的验证
  2. 计算效率分析缺失:未提供详细的计算复杂度和推理时间分析
  3. 失败案例分析不足:缺乏对方法局限性的深入分析

影响力

  1. 学术价值:为多模态语音分离提供了新的研究思路
  2. 实用价值:在助听器、视频会议等实际应用中具有潜在价值
  3. 可复现性:提供了详细的实现细节,有利于研究复现

适用场景

  1. 视频会议系统:利用参会者的视觉信息进行语音分离
  2. 智能助听设备:在嘈杂环境中突出目标说话者声音
  3. 多媒体内容处理:从音视频内容中提取特定说话者的语音

参考文献

论文引用了语音分离领域的重要工作,包括:

  • VoiceFilter系列:基于说话者嵌入的分离方法
  • Looking to Listen、VoiceFormer:音视频分离的代表性工作
  • ECAPA-TDNN:说话者识别的经典模型
  • LRS3、LibriSpeech:语音处理的标准数据集

总体评价:这是一篇技术创新性强、实验设计合理的优秀论文。通过巧妙的两阶段架构设计和多模态融合策略,在语音分离任务上取得了显著的性能提升。特别是纯视觉模态的创新应用为该领域提供了新的研究方向。尽管在真实场景验证方面还有提升空间,但整体工作质量较高,具有重要的学术和实用价值。