2025-11-12T08:37:10.186766

Towards Multimodal Query-Based Spatial Audio Source Extraction

Yu, Ma, Li et al.

Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.

academic

Towards Multimodal Query-Based Spatial Audio Source Extraction

基本信息

论文ID: 2510.13308
标题: Towards Multimodal Query-Based Spatial Audio Source Extraction
作者: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
分类: eess.AS (音频信号处理)
发表时间: 2025年10月15日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.13308

摘要

基于查询的音频源提取旨在根据查询条件从混合音频中恢复目标源。现有方法主要局限于单通道音频，未能充分利用多通道录音中的空间信息。本文提出了一个基于查询的空间音频源提取框架，用于从一阶全向立体声(FOA)混合音频中恢复干净的目标信号。该方法支持音频提示或文本提示作为条件输入，实现灵活的端到端提取。模型的核心是三轴Transformer，联合建模时间、频率和空间通道依赖关系。模型使用对比语言-音频预训练(CLAP)嵌入，通过特征线性调制(FiLM)实现统一的音频-文本条件化。为消除昂贵的标注成本并提高泛化能力，提出了无标签数据管道，动态生成空间混合音频及相应目标进行训练。实验结果显示高质量的分离效果，证明了多模态条件化和三轴建模的有效性。

研究背景与动机

问题定义

音频源分离是音频信号处理的基础问题，旨在从复杂混合音频中恢复单个声音事件。随着沉浸式媒体、AR/VR、助听器和人机交互等应用的发展，对空间化音频处理的需求日益增长。

现有方法的局限性

空间信息利用不足：大多数现有方法主要关注时域建模或时频表示，未充分利用人类听觉感知中至关重要的空间线索
类别特定训练：许多分离系统采用类别特定训练方式，限制了泛化能力和在多样化真实场景中的适用性
单通道限制：虽然一些研究探索了多模态线索的目标声音分离，但仍局限于单通道音频
混响环境挑战：传统空间滤波或波束成形方法在强空间混响环境下表现不佳

研究动机

设计一个能够联合捕获时间和空间依赖关系，同时支持端到端、基于查询的分离框架仍然是一个开放挑战。本文旨在填补这一空白，提出能够在混响和声学复杂环境中进行鲁棒、高保真分离的方法。

核心贡献

提出BSAST框架：Band-split Spatial Audio Separation Transformer，联合建模时间、频率和空间通道线索，在混响条件下实现鲁棒提取
引入CLAP条件化机制：基于CLAP的查询条件化机制，支持音频和文本两种查询方式，超越固定类别设置
设计无标签数据管道：动态生成空间混合音频及相应目标，提高训练可扩展性，无需昂贵的人工标注
建立新范式：为沉浸式应用中的高保真空间音频分离建立新范式