We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
academic- 论文ID: 2501.01401
- 标题: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
- 作者: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (牛津大学VGG组)
- 分类: eess.AS (电气工程和系统科学-音频和语音处理)
- 发表时间: 2025年1月2日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2501.01401
本文提出了一种基于Transformer的架构,用于从多个说话者和环境噪声中分离目标说话者的声音。该方法使用两个独立的神经网络:(A) 一个注册网络,利用音频和视觉模态的各种组合来生成说话者特定的嵌入向量;(B) 一个分离网络,接受噪声信号和注册向量作为输入,输出目标说话者的干净信号。主要创新点包括:(i) 注册向量可以从仅音频、音视频数据(使用唇部运动)或仅视觉数据(使用静默视频的唇部运动)生成;(ii) 在分离过程中使用多个正负注册向量进行条件化的灵活性。
语音分离是音频处理中的核心挑战,特别是在噪声环境和多说话者场景中。现有应用如助听器、语音激活系统和视频会议都严重依赖于语音分离的性能。
- 基于音频嵌入的方法:如VoiceFilter等方法依赖于干净、无噪声的音频来生成说话者嵌入,这在实际噪声环境中难以获得。
- 音视频方法:如Looking to Listen、VoiceFormer等方法虽然利用了视觉线索(唇部运动),但需要在分离过程中持续获得视觉信息,当视觉数据被遮挡或缺失时性能下降。
本文旨在结合音频和视觉条件化方法的优势,同时规避各自的固有挑战。通过两阶段设计:注册阶段可以利用多模态信息生成鲁棒的说话者表示,而分离阶段仅依赖音频数据,提高了计算效率和对视觉信息变化的鲁棒性。
- 多模态注册网络:提出了能够处理音频、音视频和纯视觉输入的说话者嵌入网络,特别是创新性地支持仅从静默视频生成注册向量。
- 正负样本条件化:引入了同时使用正样本(目标说话者)和负样本(非目标说话者)注册向量的对比学习机制。
- 两阶段架构优势:分离阶段完全不依赖视觉信息,解决了传统音视频方法在视觉信息缺失时的局限性。
- 性能提升:在LRS3和LibriSpeech数据集上达到了优于现有方法的性能。
给定包含目标说话者、其他说话者和环境噪声的混合音频信号,目标是分离出具有特定声学特征的目标说话者的语音成分,同时过滤掉竞争声音和环境噪声。
音频专用网络(图1a):
- 使用预训练的ECAPA-TDNN模型作为说话者特征提取器
- 输入:干净音频的频谱图 S(f,t)=STFT(ac)
- 输出:192维说话者嵌入 Sac∈R192
音视频网络(图1b):
- 音频编码:Ea∈Rta×768
- 视频编码(唇部运动):Ev∈Rtv×512
- 人脸图像编码:Ef∈R128
- 特征融合:F(Ea,Ev,Ef)=(Ea;Ev;Ef)∈R(ta+tv+1)×768
- 通过三层Transformer编码器处理融合特征
- 输出:192维注册向量 Savf∈R192
纯视觉网络(图1b):
- 仅使用视觉信息(唇部运动和/或人脸图像)
- 输出:Svf=SpeakerExtractor(Transformer([Ev;Ef]))
- 基于VoiceFormer架构,包含音频编码器-解码器和说话者嵌入编码器
- 输入:噪声音频波形和多个正负注册向量
- 使用三层Transformer编码器融合音频和说话者编码
- 通过注意力机制增强匹配目标说话者的特征,抑制非目标说话者特征
- 编码器-解码器间的跳跃连接保留低级和高级信息
- 知识蒸馏训练策略:音视频注册网络通过知识蒸馏学习模仿音频专用网络的输出,确保不同模态间的一致性。
- 多模态灵活性:支持从不同模态组合生成注册向量,包括创新的纯视觉模式。
- 对比学习机制:同时使用正负样本提供更强的说话者区分能力。
- LRS3:来自公开TEDx视频的大规模音视频数据集,包含多样化的说话风格和主题
- LibriSpeech:来自公共领域有声读物的大规模纯音频数据集
- 测试集中的说话者在训练过程中未见过,确保泛化能力评估
- SDR (Signal-to-Distortion Ratio):衡量分离输出的质量
- STOI (Short-Time Objective Intelligibility):量化信号可懂度
- PESQ (Perceptual Evaluation of Speech Quality):反映听者感知的感知评分
- 音频方法:VoiceFilter
- 音视频方法:Conversation、VisualVoice、VoiceFormer
- 使用PyTorch实现
- 视频数据:25 FPS,面部裁剪至说话者嘴部区域
- 音频:单声道,16kHz采样率
- Transformer:3层,8个注意力头,模型维度532
- 训练数据:4秒音频片段,随机裁剪并应用速度、音调、分贝调整等数据增强
正负嵌入向量效果(表1):
| 配置 | 1P-0N | 1P-1N | 3P-2N | 3P-3N |
|---|
| SDR↑ | 13.8 | 14.0 | 14.4 | 14.5 |
结果表明增加正负注册向量数量能够提升分离性能。
多模态比较(表2):
| 模态 | 音频 | 视觉 | SDR↑ | STOI↑ | PESQ↑ |
|---|
| 干净音频 | ✓ | ✗ | 14.4 | 91 | 2.52 |
| 干净音频+唇部 | ✓ | ✓ | 14.5 | 91 | 2.55 |
| 噪声音频 | ✓ | ✗ | 6.3 | 58 | 1.82 |
| 噪声音频+唇部 | ✓ | ✓ | 13.7 | 88 | 2.45 |
| 仅唇部运动 | ✗ | ✓ | 11.1 | 77 | 2.25 |
| 唇部+人脸 | ✗ | ✓ | 12.0 | 80 | 2.35 |
与SOTA方法比较(表3):
| 方法 | 数据集 | SDR↑ | STOI↑ | PESQ↑ |
|---|
| VoiceFormer | LRS3 | 14.4 | 92 | 2.42 |
| VoiceVector | LRS3 | 14.5 | 91 | 2.52 |
| VoiceFilter | LibriSpeech | 12.6 | - | - |
| VoiceVector | LibriSpeech | 13.1 | 89 | 2.12 |
- 纯视觉模式的有效性:仅使用唇部运动就能达到SDR 11.1的性能,证明了视觉信息的重要性。
- 噪声鲁棒性:当结合视觉线索时,噪声音频的性能从SDR 6.3大幅提升至13.7。
- 跨数据集泛化:在未训练过的LibriSpeech数据集上仍能超越基线方法。
- 多模态条件化方法:利用视觉线索(主要是唇部运动)指导分离
- 说话者特定嵌入方法:基于干净语音样本生成说话者嵌入进行条件化
- 相比传统音视频方法:分离阶段不需要视觉信息,提高了鲁棒性和计算效率
- 相比纯音频方法:通过多模态注册向量提供更强的说话者区分能力
- 引入负样本机制:相比之前仅使用正样本的方法,提供了更好的对比学习效果
- 提出的两阶段架构成功结合了音频和视觉条件化的优势
- 多模态注册向量在各种场景下都表现出良好的性能
- 正负样本的对比学习机制有效提升了分离性能
- 在标准数据集上达到了优于现有方法的性能
- 合成数据依赖:主要在合成混合音频上训练和测试,与真实世界噪声环境可能存在域差距
- 视觉质量要求:纯视觉模式仍需要清晰的唇部运动视频
- 计算复杂度:两阶段架构增加了整体系统复杂度
- 在真实噪声环境中的验证和优化
- 探索更多视觉模态(如手势、表情)的融合
- 端到端优化策略的进一步研究
- 技术创新性强:首次实现纯视觉模态的说话者注册,为视觉语音处理开辟了新方向
- 架构设计合理:两阶段设计巧妙平衡了性能和实用性
- 实验充分:涵盖多种模态组合和对比方法的全面评估
- 性能提升明显:在多个指标上超越现有SOTA方法
- 真实场景验证不足:主要基于合成数据,缺乏真实噪声环境的验证
- 计算效率分析缺失:未提供详细的计算复杂度和推理时间分析
- 失败案例分析不足:缺乏对方法局限性的深入分析
- 学术价值:为多模态语音分离提供了新的研究思路
- 实用价值:在助听器、视频会议等实际应用中具有潜在价值
- 可复现性:提供了详细的实现细节,有利于研究复现
- 视频会议系统:利用参会者的视觉信息进行语音分离
- 智能助听设备:在嘈杂环境中突出目标说话者声音
- 多媒体内容处理:从音视频内容中提取特定说话者的语音
论文引用了语音分离领域的重要工作,包括:
- VoiceFilter系列:基于说话者嵌入的分离方法
- Looking to Listen、VoiceFormer:音视频分离的代表性工作
- ECAPA-TDNN:说话者识别的经典模型
- LRS3、LibriSpeech:语音处理的标准数据集
总体评价:这是一篇技术创新性强、实验设计合理的优秀论文。通过巧妙的两阶段架构设计和多模态融合策略,在语音分离任务上取得了显著的性能提升。特别是纯视觉模态的创新应用为该领域提供了新的研究方向。尽管在真实场景验证方面还有提升空间,但整体工作质量较高,具有重要的学术和实用价值。