Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.
- 论文ID: 2510.13308
- 标题: Towards Multimodal Query-Based Spatial Audio Source Extraction
- 作者: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
- 分类: eess.AS (音频信号处理)
- 发表时间: 2025年10月15日 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.13308
基于查询的音频源提取旨在根据查询条件从混合音频中恢复目标源。现有方法主要局限于单通道音频,未能充分利用多通道录音中的空间信息。本文提出了一个基于查询的空间音频源提取框架,用于从一阶全向立体声(FOA)混合音频中恢复干净的目标信号。该方法支持音频提示或文本提示作为条件输入,实现灵活的端到端提取。模型的核心是三轴Transformer,联合建模时间、频率和空间通道依赖关系。模型使用对比语言-音频预训练(CLAP)嵌入,通过特征线性调制(FiLM)实现统一的音频-文本条件化。为消除昂贵的标注成本并提高泛化能力,提出了无标签数据管道,动态生成空间混合音频及相应目标进行训练。实验结果显示高质量的分离效果,证明了多模态条件化和三轴建模的有效性。
音频源分离是音频信号处理的基础问题,旨在从复杂混合音频中恢复单个声音事件。随着沉浸式媒体、AR/VR、助听器和人机交互等应用的发展,对空间化音频处理的需求日益增长。
- 空间信息利用不足:大多数现有方法主要关注时域建模或时频表示,未充分利用人类听觉感知中至关重要的空间线索
- 类别特定训练:许多分离系统采用类别特定训练方式,限制了泛化能力和在多样化真实场景中的适用性
- 单通道限制:虽然一些研究探索了多模态线索的目标声音分离,但仍局限于单通道音频
- 混响环境挑战:传统空间滤波或波束成形方法在强空间混响环境下表现不佳
设计一个能够联合捕获时间和空间依赖关系,同时支持端到端、基于查询的分离框架仍然是一个开放挑战。本文旨在填补这一空白,提出能够在混响和声学复杂环境中进行鲁棒、高保真分离的方法。
- 提出BSAST框架:Band-split Spatial Audio Separation Transformer,联合建模时间、频率和空间通道线索,在混响条件下实现鲁棒提取
- 引入CLAP条件化机制:基于CLAP的查询条件化机制,支持音频和文本两种查询方式,超越固定类别设置
- 设计无标签数据管道:动态生成空间混合音频及相应目标,提高训练可扩展性,无需昂贵的人工标注
- 建立新范式:为沉浸式应用中的高保真空间音频分离建立新范式
给定FOA格式的多通道混合音频 X∈RC×L(C为通道数,L为音频样本数),混合音频生成过程为:
X=∑i=1Msi∗Hi+N
其中M为源数量,si为干净源信号,Hi为对应的多通道房间脉冲响应,*表示卷积,N表示非定向背景噪声。
目标是根据查询q(音频样例或文本描述),从混合音频中估计对应的干净目标信号:
s^q=fθ(X,q)
BSAST框架包含四个主要模块:
- 带分割编码器:将频谱分割成多个子带并提取潜在嵌入
- CLAP条件化模块:通过FiLM注入查询语义指导
- 三轴RoPE Transformer:沿时间、频率和通道维度建模依赖关系
- 频谱估计模块:直接预测目标频谱
采用带分割策略将输入频谱划分为N个不重叠的频率子带:
- 将复数频谱图转换为实数域(分离实部和虚部)
- 分割成N个子带 Bn∈RC×T×Fn
- 每个子带通过RMS归一化和线性投影生成嵌入 Zn∈RC×T×D
- 沿子带轴堆叠得到 Z∈RC×T×N×D
使用FiLM机制注入CLAP嵌入:
- CLAP嵌入 e∈Rd 通过两层全连接网络映射为2D维向量
- 分割为缩放参数 γ 和偏移参数 β
- 特征调制:FiLM(Z,γ,β)=γ⊙Z+β
每个Transformer块依次沿时间、频率和通道轴应用轴向注意力:
- 使用RoPE编码相对位置依赖关系
- 多头注意力机制处理各轴向的交互
- 残差连接和前馈网络
直接预测目标源的幅度频谱:
- 每个子带通过MLP生成估计频谱 B^n
- 沿频率轴连接所有子带
- 通过通道合并模块聚合多通道信息
- 三轴建模:首次在音频分离中同时建模时间、频率和空间维度的依赖关系
- 多模态查询:统一支持音频和文本查询,提供灵活的交互方式
- 无标签训练:通过CLAP嵌入扰动生成伪查询,无需并行标注数据
- 空间信息利用:充分利用FOA格式的空间线索进行源分离
使用DCASE 2025 Task 4官方数据集:
- 干净源:Anechoic Sound Event 1K、FSD50K、EARS数据集
- 房间脉冲响应:FOA格式录制的RIR
- 背景噪声:FOA-MEIR、FSD50K、ESC-50、DISCO
- 音频规格:32 kHz采样率,16位量化
- 混合音频:10秒时长,最多3个事件同时重叠
- SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
- SDR (Signal-to-Distortion Ratio)
- STFT参数:汉宁窗长度2048,跳跃长度1024
- 频带分割:25个非重叠子带
- 模型参数:特征维度128,8个Transformer块,4个注意力头
- 优化器:AdamW,学习率3×10⁻⁴,权重衰减1×10⁻²
- 训练:最大300轮,每轮2000个样本
结合SI-SDR损失和L1重构损失:
L=LSI-SDR+λL1
其中 λ=100
| 通道配置 | 音频条件 | | 文本条件 | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| wxyz (完整FOA) | 7.296 | 8.595 | 4.098 | 5.664 |
| w (仅全向通道) | 5.833 | 6.785 | 4.101 | 4.557 |
关键发现:
- 完整FOA通道配置显著优于单通道配置,验证了空间信息的重要性
- 音频条件查询性能优于文本条件查询
- 模型在仅用音频查询训练的情况下仍能很好地处理文本查询
| Transformer块数 | 音频条件 | | 文本条件 | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| 4 | 4.791 | 6.273 | 2.435 | 3.052 |
| 6 | 6.426 | 7.752 | 3.871 | 4.459 |
| 8 | 7.296 | 8.595 | 4.098 | 5.664 |
结果分析:
- 增加Transformer块数持续改善性能
- 8块配置达到最佳效果
- 展现了模型的良好可扩展性
图2展示了使用文本查询的分离示例,模型能够从混合音频中准确提取"typing"和"pouring"等目标声音,保持高保真度和清晰度。
传统方法主要关注单通道或立体声分离,在时域建模和时频表示方面取得进展,但空间线索利用不足。
近期研究探索了多模态线索的目标声音分离,但主要局限于单通道音频,未充分利用空间信息。
传统空间滤波和波束成形方法在强混响环境下性能有限,需要更强大的深度学习方法。
- 三轴Transformer有效建模了时间-频率-空间依赖关系
- CLAP条件化实现了灵活的多模态查询
- 无标签数据管道提高了训练效率和泛化能力
- 空间信息对高质量音频分离至关重要
- 仅在FOA格式上验证,未扩展到其他多通道格式
- 文本查询性能仍低于音频查询
- 计算复杂度较高,实时应用需要优化
- 在极端混响环境下的鲁棒性需进一步验证
- 扩展到更多空间音频格式
- 提高文本查询的分离性能
- 模型压缩和加速优化
- 更大规模数据集训练
- 技术创新性强:首次提出三轴建模的空间音频分离框架
- 实用价值高:支持多模态查询,适用于沉浸式应用
- 方法完整性:从数据生成到模型设计形成完整pipeline
- 实验充分:包含消融实验和对比分析
- 评估范围有限:仅在一个数据集上验证
- 计算效率:三轴建模增加了计算复杂度
- 理论分析不足:缺乏对方法收敛性和泛化能力的理论分析
- 实时性考虑:未讨论实时处理的可行性
- 学术贡献:为空间音频分离建立了新范式
- 应用前景:在AR/VR、助听器等领域有广阔应用
- 可复现性:提供了详细的实现细节
- 启发性:为多模态音频处理提供了新思路
- 沉浸式媒体:VR/AR环境中的音频处理
- 智能助听:个性化声音增强
- 会议系统:多人会议中的语音分离
- 机器人交互:复杂环境中的声音理解
论文引用了25篇相关文献,涵盖了音频源分离、空间音频处理、深度学习等多个领域的重要工作,为研究提供了坚实的理论基础。
总体评价:本文提出了一个创新的空间音频源分离框架,技术方案完整,实验验证充分,在多模态查询和空间信息利用方面取得了重要进展,为沉浸式音频应用奠定了基础。尽管存在一些局限性,但整体贡献显著,具有重要的学术价值和应用前景。