2025-11-12T08:37:10.186766

Towards Multimodal Query-Based Spatial Audio Source Extraction

Yu, Ma, Li et al.
Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.
academic

Towards Multimodal Query-Based Spatial Audio Source Extraction

基本信息

  • 论文ID: 2510.13308
  • 标题: Towards Multimodal Query-Based Spatial Audio Source Extraction
  • 作者: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
  • 分类: eess.AS (音频信号处理)
  • 发表时间: 2025年10月15日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.13308

摘要

基于查询的音频源提取旨在根据查询条件从混合音频中恢复目标源。现有方法主要局限于单通道音频,未能充分利用多通道录音中的空间信息。本文提出了一个基于查询的空间音频源提取框架,用于从一阶全向立体声(FOA)混合音频中恢复干净的目标信号。该方法支持音频提示或文本提示作为条件输入,实现灵活的端到端提取。模型的核心是三轴Transformer,联合建模时间、频率和空间通道依赖关系。模型使用对比语言-音频预训练(CLAP)嵌入,通过特征线性调制(FiLM)实现统一的音频-文本条件化。为消除昂贵的标注成本并提高泛化能力,提出了无标签数据管道,动态生成空间混合音频及相应目标进行训练。实验结果显示高质量的分离效果,证明了多模态条件化和三轴建模的有效性。

研究背景与动机

问题定义

音频源分离是音频信号处理的基础问题,旨在从复杂混合音频中恢复单个声音事件。随着沉浸式媒体、AR/VR、助听器和人机交互等应用的发展,对空间化音频处理的需求日益增长。

现有方法的局限性

  1. 空间信息利用不足:大多数现有方法主要关注时域建模或时频表示,未充分利用人类听觉感知中至关重要的空间线索
  2. 类别特定训练:许多分离系统采用类别特定训练方式,限制了泛化能力和在多样化真实场景中的适用性
  3. 单通道限制:虽然一些研究探索了多模态线索的目标声音分离,但仍局限于单通道音频
  4. 混响环境挑战:传统空间滤波或波束成形方法在强空间混响环境下表现不佳

研究动机

设计一个能够联合捕获时间和空间依赖关系,同时支持端到端、基于查询的分离框架仍然是一个开放挑战。本文旨在填补这一空白,提出能够在混响和声学复杂环境中进行鲁棒、高保真分离的方法。

核心贡献

  1. 提出BSAST框架:Band-split Spatial Audio Separation Transformer,联合建模时间、频率和空间通道线索,在混响条件下实现鲁棒提取
  2. 引入CLAP条件化机制:基于CLAP的查询条件化机制,支持音频和文本两种查询方式,超越固定类别设置
  3. 设计无标签数据管道:动态生成空间混合音频及相应目标,提高训练可扩展性,无需昂贵的人工标注
  4. 建立新范式:为沉浸式应用中的高保真空间音频分离建立新范式

方法详解

任务定义

给定FOA格式的多通道混合音频 XRC×LX \in \mathbb{R}^{C \times L}(C为通道数,L为音频样本数),混合音频生成过程为:

X=i=1MsiHi+NX = \sum_{i=1}^{M} s_i * H_i + N

其中M为源数量,sis_i为干净源信号,HiH_i为对应的多通道房间脉冲响应,*表示卷积,N表示非定向背景噪声。

目标是根据查询q(音频样例或文本描述),从混合音频中估计对应的干净目标信号: s^q=fθ(X,q)\hat{s}_q = f_\theta(X, q)

模型架构

1. 系统概览

BSAST框架包含四个主要模块:

  • 带分割编码器:将频谱分割成多个子带并提取潜在嵌入
  • CLAP条件化模块:通过FiLM注入查询语义指导
  • 三轴RoPE Transformer:沿时间、频率和通道维度建模依赖关系
  • 频谱估计模块:直接预测目标频谱

2. 带分割编码器

采用带分割策略将输入频谱划分为N个不重叠的频率子带:

  • 将复数频谱图转换为实数域(分离实部和虚部)
  • 分割成N个子带 BnRC×T×FnB_n \in \mathbb{R}^{C \times T \times F_n}
  • 每个子带通过RMS归一化和线性投影生成嵌入 ZnRC×T×DZ_n \in \mathbb{R}^{C \times T \times D}
  • 沿子带轴堆叠得到 ZRC×T×N×DZ \in \mathbb{R}^{C \times T \times N \times D}

3. CLAP条件化

使用FiLM机制注入CLAP嵌入:

  • CLAP嵌入 eRde \in \mathbb{R}^d 通过两层全连接网络映射为2D维向量
  • 分割为缩放参数 γ\gamma 和偏移参数 β\beta
  • 特征调制:FiLM(Z,γ,β)=γZ+β\text{FiLM}(Z,\gamma,\beta) = \gamma \odot Z + \beta

4. 三轴RoPE Transformer

每个Transformer块依次沿时间、频率和通道轴应用轴向注意力:

  • 使用RoPE编码相对位置依赖关系
  • 多头注意力机制处理各轴向的交互
  • 残差连接和前馈网络

5. 频谱估计模块

直接预测目标源的幅度频谱:

  • 每个子带通过MLP生成估计频谱 B^n\hat{B}_n
  • 沿频率轴连接所有子带
  • 通过通道合并模块聚合多通道信息

技术创新点

  1. 三轴建模:首次在音频分离中同时建模时间、频率和空间维度的依赖关系
  2. 多模态查询:统一支持音频和文本查询,提供灵活的交互方式
  3. 无标签训练:通过CLAP嵌入扰动生成伪查询,无需并行标注数据
  4. 空间信息利用:充分利用FOA格式的空间线索进行源分离

实验设置

数据集

使用DCASE 2025 Task 4官方数据集:

  • 干净源:Anechoic Sound Event 1K、FSD50K、EARS数据集
  • 房间脉冲响应:FOA格式录制的RIR
  • 背景噪声:FOA-MEIR、FSD50K、ESC-50、DISCO
  • 音频规格:32 kHz采样率,16位量化
  • 混合音频:10秒时长,最多3个事件同时重叠

评价指标

  • SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
  • SDR (Signal-to-Distortion Ratio)

实现细节

  • STFT参数:汉宁窗长度2048,跳跃长度1024
  • 频带分割:25个非重叠子带
  • 模型参数:特征维度128,8个Transformer块,4个注意力头
  • 优化器:AdamW,学习率3×10⁻⁴,权重衰减1×10⁻²
  • 训练:最大300轮,每轮2000个样本

训练目标

结合SI-SDR损失和L1重构损失: L=LSI-SDR+λL1L = L_{\text{SI-SDR}} + \lambda L_1 其中 λ=100\lambda = 100

实验结果

主要结果

通道配置音频条件文本条件
SI-SDRSDRSI-SDRSDR
wxyz (完整FOA)7.2968.5954.0985.664
w (仅全向通道)5.8336.7854.1014.557

关键发现

  1. 完整FOA通道配置显著优于单通道配置,验证了空间信息的重要性
  2. 音频条件查询性能优于文本条件查询
  3. 模型在仅用音频查询训练的情况下仍能很好地处理文本查询

消融实验

Transformer块数音频条件文本条件
SI-SDRSDRSI-SDRSDR
44.7916.2732.4353.052
66.4267.7523.8714.459
87.2968.5954.0985.664

结果分析

  • 增加Transformer块数持续改善性能
  • 8块配置达到最佳效果
  • 展现了模型的良好可扩展性

案例分析

图2展示了使用文本查询的分离示例,模型能够从混合音频中准确提取"typing"和"pouring"等目标声音,保持高保真度和清晰度。

相关工作

音频源分离

传统方法主要关注单通道或立体声分离,在时域建模和时频表示方面取得进展,但空间线索利用不足。

查询条件分离

近期研究探索了多模态线索的目标声音分离,但主要局限于单通道音频,未充分利用空间信息。

空间音频处理

传统空间滤波和波束成形方法在强混响环境下性能有限,需要更强大的深度学习方法。

结论与讨论

主要结论

  1. 三轴Transformer有效建模了时间-频率-空间依赖关系
  2. CLAP条件化实现了灵活的多模态查询
  3. 无标签数据管道提高了训练效率和泛化能力
  4. 空间信息对高质量音频分离至关重要

局限性

  1. 仅在FOA格式上验证,未扩展到其他多通道格式
  2. 文本查询性能仍低于音频查询
  3. 计算复杂度较高,实时应用需要优化
  4. 在极端混响环境下的鲁棒性需进一步验证

未来方向

  1. 扩展到更多空间音频格式
  2. 提高文本查询的分离性能
  3. 模型压缩和加速优化
  4. 更大规模数据集训练

深度评价

优点

  1. 技术创新性强:首次提出三轴建模的空间音频分离框架
  2. 实用价值高:支持多模态查询,适用于沉浸式应用
  3. 方法完整性:从数据生成到模型设计形成完整pipeline
  4. 实验充分:包含消融实验和对比分析

不足

  1. 评估范围有限:仅在一个数据集上验证
  2. 计算效率:三轴建模增加了计算复杂度
  3. 理论分析不足:缺乏对方法收敛性和泛化能力的理论分析
  4. 实时性考虑:未讨论实时处理的可行性

影响力

  1. 学术贡献:为空间音频分离建立了新范式
  2. 应用前景:在AR/VR、助听器等领域有广阔应用
  3. 可复现性:提供了详细的实现细节
  4. 启发性:为多模态音频处理提供了新思路

适用场景

  1. 沉浸式媒体:VR/AR环境中的音频处理
  2. 智能助听:个性化声音增强
  3. 会议系统:多人会议中的语音分离
  4. 机器人交互:复杂环境中的声音理解

参考文献

论文引用了25篇相关文献,涵盖了音频源分离、空间音频处理、深度学习等多个领域的重要工作,为研究提供了坚实的理论基础。


总体评价:本文提出了一个创新的空间音频源分离框架,技术方案完整,实验验证充分,在多模态查询和空间信息利用方面取得了重要进展,为沉浸式音频应用奠定了基础。尽管存在一些局限性,但整体贡献显著,具有重要的学术价值和应用前景。