Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.
- 논문 ID: 2510.13308
- 제목: Towards Multimodal Query-Based Spatial Audio Source Extraction
- 저자: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
- 분류: eess.AS (음향 신호 처리)
- 발표 시간: 2025년 10월 15일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2510.13308
쿼리 기반 음향 음원 추출은 쿼리 조건에 따라 혼합 음향에서 목표 음원을 복원하는 것을 목표로 한다. 기존 방법들은 주로 단일 채널 음향에 국한되어 있으며, 다중 채널 녹음의 공간 정보를 충분히 활용하지 못하고 있다. 본 논문은 1차 전방향 스테레오(FOA) 혼합 음향에서 깨끗한 목표 신호를 복원하기 위한 쿼리 기반 공간 음향 음원 추출 프레임워크를 제안한다. 본 방법은 음향 프롬프트 또는 텍스트 프롬프트를 조건부 입력으로 지원하여 유연한 엔드-투-엔드 추출을 구현한다. 모델의 핵심은 시간, 주파수 및 공간 채널 의존성을 결합적으로 모델링하는 삼축 Transformer이다. 모델은 대조 언어-음향 사전학습(CLAP) 임베딩을 사용하며, 특성 선형 변조(FiLM)를 통해 통합된 음향-텍스트 조건화를 구현한다. 비용이 많이 드는 주석 작업을 제거하고 일반화 능력을 향상시키기 위해, 공간 혼합 음향 및 해당 목표를 동적으로 생성하는 무표지 데이터 파이프라인을 제안한다. 실험 결과는 높은 품질의 분리 효과를 보여주며, 다중모달 조건화 및 삼축 모델링의 효과성을 입증한다.
음향 음원 분리는 음향 신호 처리의 기초 문제로, 복잡한 혼합 음향에서 개별 음성 이벤트를 복원하는 것을 목표로 한다. 몰입형 미디어, AR/VR, 보청기 및 인간-기계 상호작용 등의 응용 분야 발전에 따라 공간화된 음향 처리에 대한 필요성이 증가하고 있다.
- 공간 정보 활용 부족: 대부분의 기존 방법은 시간 영역 모델링 또는 시간-주파수 표현에 중점을 두고 있으며, 인간 청각 인지에서 중요한 공간 단서를 충분히 활용하지 못하고 있다.
- 범주 특정 학습: 많은 분리 시스템은 범주 특정 학습 방식을 채택하여 일반화 능력과 다양한 실제 시나리오에서의 적용성을 제한한다.
- 단일 채널 제한: 일부 연구에서 목표 음원 분리를 위해 다중모달 단서를 탐색했지만, 여전히 단일 채널 음향에 국한되어 있다.
- 잔향 환경 과제: 전통적인 공간 필터링 또는 빔포밍 방법은 강한 공간 잔향 환경에서 성능이 저하된다.
시간 및 공간 의존성을 결합적으로 포착하면서 동시에 엔드-투-엔드, 쿼리 기반 분리 프레임워크를 지원하는 시스템을 설계하는 것은 여전히 미해결 과제이다. 본 논문은 이러한 공백을 메우고, 잔향 및 음향적으로 복잡한 환경에서 견고하고 고충실도 분리를 수행할 수 있는 방법을 제안하는 것을 목표로 한다.
- BSAST 프레임워크 제안: Band-split Spatial Audio Separation Transformer로, 시간, 주파수 및 공간 채널 단서를 결합적으로 모델링하여 잔향 조건에서 견고한 추출을 구현한다.
- CLAP 조건화 메커니즘 도입: CLAP 기반 쿼리 조건화 메커니즘으로, 음향 및 텍스트 두 가지 쿼리 방식을 지원하여 고정 범주 설정을 초월한다.
- 무표지 데이터 파이프라인 설계: 공간 혼합 음향 및 해당 목표를 동적으로 생성하여 학습 확장성을 향상시키고 비용이 많이 드는 수동 주석 작업을 제거한다.
- 새로운 패러다임 구축: 몰입형 응용 분야에서 고충실도 공간 음향 분리를 위한 새로운 패러다임을 구축한다.
FOA 형식의 다중 채널 혼합 음향 X∈RC×L (C는 채널 수, L은 음향 샘플 수)이 주어졌을 때, 혼합 음향 생성 과정은 다음과 같다:
X=∑i=1Msi∗Hi+N
여기서 M은 음원 수, si는 깨끗한 음원 신호, Hi는 해당하는 다중 채널 방 임펄스 응답, *는 합성곱, N은 무방향 배경 잡음을 나타낸다.
목표는 쿼리 q(음향 예시 또는 텍스트 설명)에 따라 혼합 음향에서 해당하는 깨끗한 목표 신호를 추정하는 것이다:
s^q=fθ(X,q)
BSAST 프레임워크는 네 가지 주요 모듈로 구성된다:
- 대역 분할 인코더: 스펙트럼을 여러 부분 대역으로 분할하고 잠재 임베딩을 추출한다.
- CLAP 조건화 모듈: FiLM을 통해 쿼리 의미론적 지도를 주입한다.
- 삼축 RoPE Transformer: 시간, 주파수 및 채널 차원을 따라 의존성을 모델링한다.
- 스펙트럼 추정 모듈: 목표 스펙트럼을 직접 예측한다.
대역 분할 전략을 사용하여 입력 스펙트럼을 N개의 겹치지 않는 주파수 부분 대역으로 분할한다:
- 복소수 스펙트럼을 실수 영역으로 변환(실부와 허부 분리)
- N개의 부분 대역으로 분할: Bn∈RC×T×Fn
- 각 부분 대역은 RMS 정규화 및 선형 투영을 통해 임베딩 생성: Zn∈RC×T×D
- 부분 대역 축을 따라 스택: Z∈RC×T×N×D
FiLM 메커니즘을 사용하여 CLAP 임베딩을 주입한다:
- CLAP 임베딩 e∈Rd를 2D 차원 벡터로 매핑: 2층 완전 연결 네트워크
- 스케일 파라미터 γ와 오프셋 파라미터 β로 분할
- 특성 변조: FiLM(Z,γ,β)=γ⊙Z+β
각 Transformer 블록은 시간, 주파수 및 채널 축을 따라 순차적으로 축향 주의 메커니즘을 적용한다:
- RoPE를 사용하여 상대 위치 의존성을 인코딩
- 다중 헤드 주의 메커니즘으로 각 축향의 상호작용 처리
- 잔차 연결 및 피드포워드 네트워크
목표 음원의 진폭 스펙트럼을 직접 예측한다:
- 각 부분 대역은 MLP를 통해 추정 스펙트럼 생성: B^n
- 모든 부분 대역을 주파수 축을 따라 연결
- 채널 병합 모듈을 통해 다중 채널 정보 집계
- 삼축 모델링: 음향 분리에서 처음으로 시간, 주파수 및 공간 차원의 의존성을 동시에 모델링
- 다중모달 쿼리: 음향 및 텍스트 쿼리를 통합적으로 지원하여 유연한 상호작용 방식 제공
- 무표지 학습: CLAP 임베딩 교란을 통해 의사 쿼리 생성, 병렬 주석 데이터 불필요
- 공간 정보 활용: FOA 형식의 공간 단서를 충분히 활용하여 음원 분리 수행
DCASE 2025 Task 4 공식 데이터셋 사용:
- 깨끗한 음원: Anechoic Sound Event 1K, FSD50K, EARS 데이터셋
- 방 임펄스 응답: FOA 형식으로 녹음된 RIR
- 배경 잡음: FOA-MEIR, FSD50K, ESC-50, DISCO
- 음향 규격: 32 kHz 샘플링 레이트, 16비트 양자화
- 혼합 음향: 10초 길이, 최대 3개 이벤트 동시 중복
- SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
- SDR (Signal-to-Distortion Ratio)
- STFT 파라미터: 해닝 윈도우 길이 2048, 홉 길이 1024
- 주파수 대역 분할: 25개 겹치지 않는 부분 대역
- 모델 파라미터: 특성 차원 128, 8개 Transformer 블록, 4개 주의 헤드
- 최적화기: AdamW, 학습률 3×10⁻⁴, 가중치 감쇠 1×10⁻²
- 학습: 최대 300 에포크, 에포크당 2000개 샘플
SI-SDR 손실과 L1 재구성 손실을 결합:
L=LSI-SDR+λL1
여기서 λ=100
| 채널 구성 | 음향 조건 | | 텍스트 조건 | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| wxyz (완전 FOA) | 7.296 | 8.595 | 4.098 | 5.664 |
| w (전방향 채널만) | 5.833 | 6.785 | 4.101 | 4.557 |
주요 발견:
- 완전 FOA 채널 구성이 단일 채널 구성보다 현저히 우수하며, 공간 정보의 중요성을 입증한다.
- 음향 조건 쿼리 성능이 텍스트 조건 쿼리보다 우수하다.
- 모델은 음향 쿼리만으로 학습한 경우에도 텍스트 쿼리를 잘 처리할 수 있다.
| Transformer 블록 수 | 음향 조건 | | 텍스트 조건 | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| 4 | 4.791 | 6.273 | 2.435 | 3.052 |
| 6 | 6.426 | 7.752 | 3.871 | 4.459 |
| 8 | 7.296 | 8.595 | 4.098 | 5.664 |
결과 분석:
- Transformer 블록 수 증가가 지속적으로 성능을 개선한다.
- 8개 블록 구성이 최적 효과를 달성한다.
- 모델의 우수한 확장성을 보여준다.
그림 2는 텍스트 쿼리를 사용한 분리 예시를 보여주며, 모델은 혼합 음향에서 "typing"과 "pouring" 등의 목표 음성을 정확하게 추출하면서 높은 충실도와 명확성을 유지한다.
전통적 방법은 주로 단일 채널 또는 스테레오 분리에 중점을 두고 있으며, 시간 영역 모델링 및 시간-주파수 표현에서 진전을 이루었지만, 공간 단서 활용이 부족하다.
최근 연구는 다중모달 단서를 활용한 목표 음성 분리를 탐색했지만, 주로 단일 채널 음향에 국한되어 있으며 공간 정보를 충분히 활용하지 못하고 있다.
전통적인 공간 필터링 및 빔포밍 방법은 강한 잔향 환경에서 성능이 제한적이며, 더욱 강력한 심층 학습 방법이 필요하다.
- 삼축 Transformer는 시간-주파수-공간 의존성을 효과적으로 모델링한다.
- CLAP 조건화는 유연한 다중모달 쿼리를 구현한다.
- 무표지 데이터 파이프라인은 학습 효율성과 일반화 능력을 향상시킨다.
- 공간 정보는 고품질 음향 분리에 필수적이다.
- FOA 형식에서만 검증되었으며, 다른 다중 채널 형식으로 확장되지 않았다.
- 텍스트 쿼리 성능이 여전히 음향 쿼리보다 낮다.
- 계산 복잡도가 높으며, 실시간 응용 분야에서 최적화가 필요하다.
- 극단적인 잔향 환경에서의 견고성이 추가 검증이 필요하다.
- 더 많은 공간 음향 형식으로 확장
- 텍스트 쿼리 분리 성능 향상
- 모델 압축 및 가속 최적화
- 더 큰 규모 데이터셋 학습
- 기술 혁신성 강함: 공간 음향 분리에서 처음으로 삼축 모델링 프레임워크 제안
- 실용 가치 높음: 다중모달 쿼리를 지원하여 몰입형 응용 분야에 적합
- 방법 완전성: 데이터 생성에서 모델 설계까지 완전한 파이프라인 형성
- 실험 충분함: 제거 실험 및 비교 분석 포함
- 평가 범위 제한: 단일 데이터셋에서만 검증
- 계산 효율성: 삼축 모델링이 계산 복잡도를 증가시킨다.
- 이론 분석 부족: 방법의 수렴성 및 일반화 능력에 대한 이론 분석 부재
- 실시간성 고려: 실시간 처리의 가능성에 대한 논의 없음
- 학술 기여: 공간 음향 분리를 위한 새로운 패러다임 구축
- 응용 전망: AR/VR, 보청기 등 분야에서 광범위한 응용 가능성
- 재현성: 상세한 구현 세부사항 제공
- 영감: 다중모달 음향 처리에 새로운 사고 제공
- 몰입형 미디어: VR/AR 환경의 음향 처리
- 지능형 보청: 개인화된 음성 증강
- 회의 시스템: 다중 인원 회의에서의 음성 분리
- 로봇 상호작용: 복잡한 환경에서의 음성 이해
논문은 음향 음원 분리, 공간 음향 처리, 심층 학습 등 여러 분야의 중요한 연구 25편을 인용하여 연구에 견고한 이론적 기초를 제공한다.
종합 평가: 본 논문은 혁신적인 공간 음향 음원 분리 프레임워크를 제안하였으며, 기술 방안이 완전하고 실험 검증이 충분하며, 다중모달 쿼리 및 공간 정보 활용 측면에서 중요한 진전을 이루었고, 몰입형 음향 응용 분야의 기초를 마련했다. 일부 한계가 있지만, 전반적인 기여는 현저하며 중요한 학술 가치와 응용 전망을 가지고 있다.