2025-11-12T08:37:10.186766

Towards Multimodal Query-Based Spatial Audio Source Extraction

Yu, Ma, Li et al.
Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.
academic

Towards Multimodal Query-Based Spatial Audio Source Extraction

Grundlegende Informationen

  • Paper-ID: 2510.13308
  • Titel: Towards Multimodal Query-Based Spatial Audio Source Extraction
  • Autoren: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
  • Klassifizierung: eess.AS (Audiosignalverarbeitung)
  • Veröffentlichungsdatum: 15. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.13308

Zusammenfassung

Die abfragebasierte Audioquellenextraktion zielt darauf ab, Zielquellen aus gemischtem Audio gemäß Abfragebedingungen wiederherzustellen. Bestehende Methoden sind hauptsächlich auf Mono-Audio beschränkt und nutzen Raumzinformationen in Mehrkanal-Aufnahmen nicht vollständig aus. Dieses Papier präsentiert ein abfragebasiertes Raumton-Quellenextraktionsframework zur Wiederherstellung sauberer Zielquellen aus First-Order Ambisonics (FOA) Mischungen. Das Verfahren unterstützt Audio- oder Textabfragen als Bedingungseingaben und ermöglicht flexible End-to-End-Extraktion. Der Kern des Modells ist ein dreiachsiger Transformer, der zeitliche, frequenzabhängige und räumliche Kanalabhängigkeiten gemeinsam modelliert. Das Modell nutzt CLAP-Embeddings (Contrastive Language-Audio Pre-training) und realisiert einheitliche Audio-Text-Konditionierung durch Feature-wise Linear Modulation (FiLM). Um teure Annotationskosten zu vermeiden und die Verallgemeinerungsfähigkeit zu verbessern, wird eine ungelabelte Datenpipeline vorgeschlagen, die dynamisch räumliche Mischungen und entsprechende Ziele für das Training generiert. Experimentelle Ergebnisse zeigen hochwertige Separationsergebnisse und demonstrieren die Wirksamkeit der multimodalen Konditionierung und dreiachsigen Modellierung.

Forschungshintergrund und Motivation

Problemdefinition

Audioquellentrennnung ist ein grundlegendes Problem der Audiosignalverarbeitung, das darauf abzielt, einzelne Schallereignisse aus komplexen Mischungen wiederherzustellen. Mit der Entwicklung von immersiven Medien, AR/VR, Hörhilfen und Mensch-Maschine-Interaktion wächst der Bedarf an räumlicher Audioverarbeitung kontinuierlich.

Einschränkungen bestehender Methoden

  1. Unzureichende Nutzung von Raumzinformationen: Die meisten bestehenden Methoden konzentrieren sich auf Zeitbereichsmodellierung oder Zeit-Frequenz-Darstellung und nutzen räumliche Hinweise, die für die menschliche Höherkennung entscheidend sind, nicht vollständig aus
  2. Kategorienspezifisches Training: Viele Separationssysteme verwenden kategorienspezifische Trainingsmethoden, die die Verallgemeinerungsfähigkeit und Anwendbarkeit in vielfältigen realen Szenarien einschränken
  3. Mono-Audio-Beschränkung: Obwohl einige Forschungen die Zieltontrennnung mit multimodalen Hinweisen untersuchen, bleiben sie auf Mono-Audio beschränkt
  4. Herausforderungen in Hallräumen: Traditionelle räumliche Filterungs- oder Beamforming-Methoden zeigen schlechte Leistung in stark räumlich halligen Umgebungen

Forschungsmotivation

Die Gestaltung eines Frameworks, das zeitliche und räumliche Abhängigkeiten gemeinsam erfasst und gleichzeitig End-to-End-, abfragebasierte Separation unterstützt, bleibt eine offene Herausforderung. Dieses Papier zielt darauf ab, diese Lücke zu schließen und Methoden vorzuschlagen, die robuste, hochwertige Separation in halligen und akustisch komplexen Umgebungen ermöglichen.

Kernbeiträge

  1. Vorschlag des BSAST-Frameworks: Band-split Spatial Audio Separation Transformer, der zeitliche, frequenzabhängige und räumliche Kanalhinweise gemeinsam modelliert und robuste Extraktion unter halligen Bedingungen ermöglicht
  2. Einführung des CLAP-Konditionierungsmechanismus: CLAP-basierter Abfragekonditionierungsmechanismus, der sowohl Audio- als auch Textabfragen unterstützt und über feste Kategorieeinstellungen hinausgeht
  3. Entwurf einer ungelabelten Datenpipeline: Dynamische Generierung räumlicher Mischungen und entsprechender Ziele zur Verbesserung der Trainingsskalierbarkeit ohne teure manuelle Annotation
  4. Etablierung eines neuen Paradigmas: Schaffung eines neuen Paradigmas für hochwertige räumliche Audiotrennnung in immersiven Anwendungen

Methodische Details

Aufgabendefinition

Gegeben sei FOA-formatiges Mehrkanal-Mischungs-Audio XRC×LX \in \mathbb{R}^{C \times L} (C ist die Kanalzahl, L ist die Anzahl der Audiosamples), wird das Mischungs-Audio wie folgt generiert:

X=i=1MsiHi+NX = \sum_{i=1}^{M} s_i * H_i + N

wobei M die Anzahl der Quellen ist, sis_i das saubere Quellsignal, HiH_i die entsprechende Mehrkanal-Raumimpulsantwort, * die Faltung und N das nicht-direktionale Hintergrundgeräusch darstellt.

Das Ziel besteht darin, das entsprechende saubere Zielquellsignal basierend auf einer Abfrage q (Audio-Beispiel oder Textbeschreibung) aus dem Mischungs-Audio zu schätzen: s^q=fθ(X,q)\hat{s}_q = f_\theta(X, q)

Modellarchitektur

1. Systemübersicht

Das BSAST-Framework besteht aus vier Hauptmodulen:

  • Band-Split-Encoder: Teilt das Spektrogramm in mehrere Subbänder auf und extrahiert latente Embeddings
  • CLAP-Konditionierungsmodul: Injiziert Abfrage-Semantik-Führung durch FiLM
  • Dreiachsiger RoPE Transformer: Modelliert Abhängigkeiten entlang der Zeit-, Frequenz- und Kanaldimensionen
  • Spektrum-Schätzungsmodul: Sagt das Zielspektrum direkt voraus

2. Band-Split-Encoder

Verwendet eine Band-Split-Strategie zur Aufteilung des Eingangsspektrogramms in N nicht überlappende Frequenzsubbänder:

  • Konvertiert komplexes Spektrogramm in reelle Domäne (trennt Real- und Imaginärteil)
  • Teilt in N Subbänder BnRC×T×FnB_n \in \mathbb{R}^{C \times T \times F_n}
  • Jedes Subband generiert durch RMS-Normalisierung und lineare Projektion ein Embedding ZnRC×T×DZ_n \in \mathbb{R}^{C \times T \times D}
  • Stapelt entlang der Subband-Achse zu ZRC×T×N×DZ \in \mathbb{R}^{C \times T \times N \times D}

3. CLAP-Konditionierung

Nutzt FiLM-Mechanismus zur Injektion von CLAP-Embeddings:

  • CLAP-Embedding eRde \in \mathbb{R}^d wird durch zweischichtiges vollständig verbundenes Netzwerk auf 2D-Vektor abgebildet
  • Wird in Skalierungsparameter γ\gamma und Versatzparameter β\beta aufgeteilt
  • Merkmals-Modulation: FiLM(Z,γ,β)=γZ+β\text{FiLM}(Z,\gamma,\beta) = \gamma \odot Z + \beta

4. Dreiachsiger RoPE Transformer

Jeder Transformer-Block wendet axiale Aufmerksamkeit sequenziell entlang der Zeit-, Frequenz- und Kanalachse an:

  • Nutzt RoPE zur Kodierung von relativen Positionsabhängigkeiten
  • Multi-Head-Aufmerksamkeitsmechanismus verarbeitet Wechselwirkungen in jeder Achse
  • Residualverbindungen und Feed-Forward-Netzwerk

5. Spektrum-Schätzungsmodul

Sagt die Amplitudenhäufigkeit des Zielquellsignals direkt voraus:

  • Jedes Subband generiert durch MLP geschätztes Spektrum B^n\hat{B}_n
  • Verkettet alle Subbänder entlang der Frequenzachse
  • Aggregiert Mehrkanal-Informationen durch Kanal-Merge-Modul

Technische Innovationen

  1. Dreiachsige Modellierung: Erste gleichzeitige Modellierung von Abhängigkeiten in Zeit-, Frequenz- und Raumdimensionen in der Audiotrennnung
  2. Multimodale Abfragen: Einheitliche Unterstützung von Audio- und Textabfragen mit flexibler Interaktion
  3. Ungelabeltes Training: Generiert Pseudo-Abfragen durch CLAP-Embedding-Störung ohne parallele Annotationsdaten
  4. Raumzinformationsnutzung: Vollständige Nutzung räumlicher Hinweise im FOA-Format für Quellentrennnung

Experimentelle Einrichtung

Datensätze

Verwendet den offiziellen DCASE 2025 Task 4-Datensatz:

  • Saubere Quellen: Anechoic Sound Event 1K, FSD50K, EARS-Datensätze
  • Raumimpulsantworten: FOA-formatierte RIR-Aufnahmen
  • Hintergrundgeräusche: FOA-MEIR, FSD50K, ESC-50, DISCO
  • Audio-Spezifikationen: 32 kHz Abtastrate, 16-Bit-Quantisierung
  • Mischungs-Audio: 10 Sekunden Dauer, maximal 3 gleichzeitig überlappende Ereignisse

Bewertungsmetriken

  • SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
  • SDR (Signal-to-Distortion Ratio)

Implementierungsdetails

  • STFT-Parameter: Hann-Fenster Länge 2048, Hop-Länge 1024
  • Frequenzbandaufteilung: 25 nicht überlappende Subbänder
  • Modellparameter: Merkmalsdimension 128, 8 Transformer-Blöcke, 4 Aufmerksamkeitsköpfe
  • Optimierer: AdamW, Lernrate 3×10⁻⁴, Gewichtszerfall 1×10⁻²
  • Training: Maximal 300 Epochen, 2000 Samples pro Epoche

Trainingsziel

Kombiniert SI-SDR-Verlust und L1-Rekonstruktionsverlust: L=LSI-SDR+λL1L = L_{\text{SI-SDR}} + \lambda L_1 wobei λ=100\lambda = 100

Experimentelle Ergebnisse

Hauptergebnisse

KanalkonfigurationAudio-BedingungText-Bedingung
SI-SDRSDRSI-SDRSDR
wxyz (vollständiges FOA)7,2968,5954,0985,664
w (nur Omnidirektionalkanal)5,8336,7854,1014,557

Wichtigste Erkenntnisse:

  1. Die vollständige FOA-Kanalkonfiguration ist deutlich überlegen der Mono-Konfiguration und validiert die Bedeutung von Raumzinformationen
  2. Audio-Bedingungsabfragen zeigen bessere Leistung als Textabfragen
  3. Das Modell kann Textabfragen auch bei Training nur mit Audio-Abfragen gut verarbeiten

Ablationsstudien

Transformer-BlöckeAudio-BedingungText-Bedingung
SI-SDRSDRSI-SDRSDR
44,7916,2732,4353,052
66,4267,7523,8714,459
87,2968,5954,0985,664

Ergebnisanalyse:

  • Die Erhöhung der Transformer-Blockanzahl verbessert kontinuierlich die Leistung
  • Die 8-Block-Konfiguration erreicht optimale Ergebnisse
  • Zeigt gute Skalierbarkeit des Modells

Fallstudien

Abbildung 2 zeigt Separationsbeispiele mit Textabfragen, wobei das Modell Zielgeräusche wie "Tippen" und "Gießen" aus Mischungs-Audio genau extrahieren kann und dabei hohe Wiedergabetreue und Klarheit bewahrt.

Verwandte Arbeiten

Audioquellentrennnung

Traditionelle Methoden konzentrieren sich hauptsächlich auf Mono- oder Stereo-Trennnung und haben Fortschritte in Zeitbereichsmodellierung und Zeit-Frequenz-Darstellung erzielt, nutzen aber räumliche Hinweise unzureichend.

Abfragebasierte Trennnung

Neuere Forschungen untersuchen Zieltontrennnung mit multimodalen Hinweisen, konzentrieren sich aber hauptsächlich auf Mono-Audio und nutzen Raumzinformationen nicht vollständig.

Räumliche Audioverarbeitung

Traditionelle räumliche Filterungs- und Beamforming-Methoden zeigen begrenzte Leistung in stark halligen Umgebungen und benötigen stärkere Deep-Learning-Methoden.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Der dreiachsige Transformer modelliert effektiv Zeit-Frequenz-Raum-Abhängigkeiten
  2. CLAP-Konditionierung ermöglicht flexible multimodale Abfragen
  3. Die ungelabelte Datenpipeline verbessert Trainingseffizienz und Verallgemeinerungsfähigkeit
  4. Raumzinformationen sind entscheidend für hochwertige Audiotrennnung

Einschränkungen

  1. Validierung nur im FOA-Format, keine Erweiterung auf andere Mehrkanal-Formate
  2. Textabfrage-Leistung bleibt unter Audio-Abfrage-Leistung
  3. Höhere Rechenkomplexität erfordert Optimierung für Echtzeitanwendungen
  4. Robustheit in extremen Hallräumen benötigt weitere Verifikation

Zukünftige Richtungen

  1. Erweiterung auf mehr räumliche Audioformate
  2. Verbesserung der Textabfrage-Separationsleistung
  3. Modellkompression und Beschleunigungsoptimierung
  4. Training mit größeren Datensätzen

Tiefgreifende Bewertung

Stärken

  1. Starke technische Innovation: Erstes Framework mit dreiachsiger Modellierung für räumliche Audiotrennnung
  2. Hoher praktischer Wert: Unterstützt multimodale Abfragen, geeignet für immersive Anwendungen
  3. Vollständige Methodik: Bildet vollständige Pipeline von Datengenerierung bis Modelldesign
  4. Umfangreiche Experimente: Enthält Ablationsstudien und Vergleichsanalysen

Mängel

  1. Begrenzte Bewertungsreichweite: Validierung nur auf einem Datensatz
  2. Recheneffizienz: Dreiachsige Modellierung erhöht Rechenkomplexität
  3. Unzureichende theoretische Analyse: Mangel an theoretischer Analyse von Konvergenz und Verallgemeinerungsfähigkeit
  4. Echtzeitüberlegungen: Keine Diskussion der Machbarkeit von Echtzeitverarbeitung

Einflussfähigkeit

  1. Akademischer Beitrag: Etabliert neues Paradigma für räumliche Audiotrennnung
  2. Anwendungsperspektiven: Breite Anwendungen in AR/VR, Hörhilfen und anderen Bereichen
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails
  4. Inspirationskraft: Bietet neue Perspektiven für multimodale Audioverarbeitung

Anwendungsszenarien

  1. Immersive Medien: Audioverarbeitung in VR/AR-Umgebungen
  2. Intelligente Hörhilfe: Personalisierte Soundverstärkung
  3. Konferenzsysteme: Sprachtrennnung in Mehrpersonen-Konferenzen
  4. Roboterinteraktion: Soundverständnis in komplexen Umgebungen

Literaturverzeichnis

Das Papier zitiert 25 verwandte Arbeiten, die wichtige Arbeiten in mehreren Bereichen wie Audioquellentrennnung, räumliche Audioverarbeitung und Deep Learning abdecken und eine solide theoretische Grundlage für die Forschung bieten.


Gesamtbewertung: Dieses Papier präsentiert ein innovatives räumliches Audiotrennungs-Framework mit vollständiger technischer Lösung und ausreichender experimenteller Validierung. Es erzielt wichtige Fortschritte in multimodaler Abfrage und Raumzinformationsnutzung und legt den Grundstein für immersive Audioanwendungen. Trotz einiger Einschränkungen ist der Gesamtbeitrag erheblich mit wichtigem akademischem Wert und Anwendungsperspektiven.