2025-11-12T08:37:10.186766

Towards Multimodal Query-Based Spatial Audio Source Extraction

Yu, Ma, Li et al.

Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.

academic

बहुविध प्रश्न-आधारित स्थानिक ऑडियो स्रोत निष्कर्षण की ओर

मूल जानकारी

पेपर ID: 2510.13308
शीर्षक: Towards Multimodal Query-Based Spatial Audio Source Extraction
लेखक: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
वर्गीकरण: eess.AS (ऑडियो सिग्नल प्रोसेसिंग)
प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13308

सारांश

प्रश्न-आधारित ऑडियो स्रोत निष्कर्षण का उद्देश्य मिश्रित ऑडियो से प्रश्न शर्तों के अनुसार लक्ष्य स्रोत को पुनः प्राप्त करना है। मौजूदा विधियाँ मुख्य रूप से एकल-चैनल ऑडियो तक सीमित हैं और बहु-चैनल रिकॉर्डिंग में स्थानिक जानकारी का पूर्ण उपयोग नहीं करती हैं। यह पेपर प्रथम-क्रम सर्वदिशात्मक स्टीरियो (FOA) मिश्रित ऑडियो से स्वच्छ लक्ष्य सिग्नल पुनः प्राप्त करने के लिए एक प्रश्न-आधारित स्थानिक ऑडियो स्रोत निष्कर्षण ढांचा प्रस्तावित करता है। यह विधि ऑडियो संकेत या पाठ संकेत को सशर्त इनपुट के रूप में समर्थन करती है, लचीले अंत-से-अंत निष्कर्षण को सक्षम करती है। मॉडल का मूल त्रि-अक्षीय Transformer है, जो समय, आवृत्ति और स्थानिक चैनल निर्भरता को संयुक्त रूप से मॉडल करता है। मॉडल विपरीत भाषा-ऑडियो पूर्व-प्रशिक्षण (CLAP) एम्बेडिंग का उपयोग करता है, विशेषता रैखिक मॉड्यूलेशन (FiLM) के माध्यम से एकीकृत ऑडियो-पाठ सशर्तता को लागू करता है। महंगी एनोटेशन लागत को समाप्त करने और सामान्यीकरण क्षमता में सुधार के लिए, एक अनलेबल्ड डेटा पाइपलाइन प्रस्तावित की गई है जो प्रशिक्षण के लिए गतिशील रूप से स्थानिक मिश्रित ऑडियो और संबंधित लक्ष्य उत्पन्न करती है। प्रायोगिक परिणाम उच्च गुणवत्ता वाले पृथक्करण प्रभाव दिखाते हैं, जो बहुविध सशर्तता और त्रि-अक्षीय मॉडलिंग की प्रभावशीलता को प्रमाणित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

ऑडियो स्रोत पृथक्करण ऑडियो सिग्नल प्रोसेसिंग की एक मौलिक समस्या है, जिसका उद्देश्य जटिल मिश्रित ऑडियो से व्यक्तिगत ध्वनि घटनाओं को पुनः प्राप्त करना है। निमज्जनकारी मीडिया, AR/VR, श्रवण यंत्र और मानव-मशीन इंटरैक्शन जैसे अनुप्रयोगों के विकास के साथ, स्थानिक ऑडियो प्रोसेसिंग की मांग में वृद्धि हो रही है।

मौजूदा विधियों की सीमाएँ

स्थानिक जानकारी का अपर्याप्त उपयोग: अधिकांश मौजूदा विधियाँ समय-क्षेत्र मॉडलिंग या समय-आवृत्ति प्रतिनिधित्व पर केंद्रित हैं, मानव श्रवण धारणा में महत्वपूर्ण स्थानिक संकेतों का पूर्ण उपयोग नहीं करती हैं
श्रेणी-विशिष्ट प्रशिक्षण: कई पृथक्करण प्रणालियाँ श्रेणी-विशिष्ट प्रशिक्षण दृष्टिकोण अपनाती हैं, जो सामान्यीकरण क्षमता और विविध वास्तविक परिदृश्यों में प्रयोज्यता को सीमित करती हैं
एकल-चैनल सीमा: हालांकि कुछ अनुसंधान लक्ष्य ध्वनि पृथक्करण के लिए बहुविध संकेतों की खोज करते हैं, फिर भी वे एकल-चैनल ऑडियो तक सीमित हैं
प्रतिध्वनि वातावरण चुनौतियाँ: पारंपरिक स्थानिक फ़िल्टरिंग या बीमफॉर्मिंग विधियाँ मजबूत स्थानिक प्रतिध्वनि वातावरण में खराब प्रदर्शन करती हैं

अनुसंधान प्रेरणा

एक ऐसी प्रणाली डिजाइन करना जो समय और स्थानिक निर्भरता को संयुक्त रूप से कैप्चर कर सके, साथ ही अंत-से-अंत, प्रश्न-आधारित पृथक्करण ढांचे का समर्थन करे, अभी भी एक खुली चुनौती है। यह पेपर इस अंतर को भरने का लक्ष्य रखता है, ऐसी विधियाँ प्रस्तावित करता है जो प्रतिध्वनि और ध्वनिक रूप से जटिल वातावरण में मजबूत, उच्च-निष्ठा पृथक्करण कर सकें।

मुख्य योगदान

BSAST ढांचा प्रस्तावित करना: Band-split Spatial Audio Separation Transformer, जो समय, आवृत्ति और स्थानिक चैनल संकेतों को संयुक्त रूप से मॉडल करता है, प्रतिध्वनि स्थितियों में मजबूत निष्कर्षण को सक्षम करता है
CLAP सशर्तता तंत्र का परिचय: CLAP-आधारित प्रश्न सशर्तता तंत्र, जो ऑडियो और पाठ दोनों प्रश्न विधियों का समर्थन करता है, निश्चित श्रेणी सेटिंग से परे जाता है
अनलेबल्ड डेटा पाइपलाइन डिजाइन करना: गतिशील रूप से स्थानिक मिश्रित ऑडियो और संबंधित लक्ष्य उत्पन्न करना, प्रशिक्षण स्केलेबिलिटी में सुधार करना, महंगी मानव एनोटेशन की आवश्यकता नहीं
नया प्रतिमान स्थापित करना: निमज्जनकारी अनुप्रयोगों में उच्च-निष्ठा स्थानिक ऑडियो पृथक्करण के लिए नया प्रतिमान

विधि विवरण

कार्य परिभाषा

FOA प्रारूप में बहु-चैनल मिश्रित ऑडियो $X \in \mathbb{R}^{C \times L}$ दिया गया है (C चैनलों की संख्या है, L ऑडियो नमूनों की संख्या है), मिश्रित ऑडियो उत्पादन प्रक्रिया है:

$X = \sum_{i=1}^{M} s_i * H_i + N$

जहाँ M स्रोतों की संख्या है, $s_i$ स्वच्छ स्रोत सिग्नल है, $H_i$ संबंधित बहु-चैनल कक्ष आवेग प्रतिक्रिया है, * संवलन को दर्शाता है, N गैर-दिशात्मक पृष्ठभूमि शोर को दर्शाता है।

लक्ष्य प्रश्न q (ऑडियो उदाहरण या पाठ विवरण) के अनुसार मिश्रित ऑडियो से संबंधित स्वच्छ लक्ष्य सिग्नल का अनुमान लगाना है: $\hat{s}_q = f_\theta(X, q)$

मॉडल आर्किटेक्चर

1. प्रणाली अवलोकन

BSAST ढांचे में चार मुख्य मॉड्यूल हैं:

बैंड-विभाजन एनकोडर: आवृत्ति स्पेक्ट्रम को कई उप-बैंड में विभाजित करता है और अव्यक्त एम्बेडिंग निकालता है
CLAP सशर्तता मॉड्यूल: FiLM के माध्यम से प्रश्न शब्दार्थ मार्गदर्शन को इंजेक्ट करता है
त्रि-अक्षीय RoPE Transformer: समय, आवृत्ति और चैनल आयामों के साथ निर्भरता को मॉडल करता है
आवृत्ति स्पेक्ट्रम अनुमान मॉड्यूल: लक्ष्य आवृत्ति स्पेक्ट्रम का सीधे अनुमान लगाता है

2. बैंड-विभाजन एनकोडर

इनपुट आवृत्ति स्पेक्ट्रम को N गैर-अतिव्यापी आवृत्ति उप-बैंड में विभाजित करने के लिए बैंड-विभाजन रणनीति अपनाता है:

जटिल आवृत्ति स्पेक्ट्रम को वास्तविक डोमेन में परिवर्तित करता है (वास्तविक और काल्पनिक भागों को अलग करता है)
N उप-बैंड में विभाजित करता है $B_n \in \mathbb{R}^{C \times T \times F_n}$
प्रत्येक उप-बैंड RMS सामान्यीकरण और रैखिक प्रक्षेपण के माध्यम से एम्बेडिंग उत्पन्न करता है $Z_n \in \mathbb{R}^{C \times T \times D}$
उप-बैंड अक्ष के साथ स्टैक करता है $Z \in \mathbb{R}^{C \times T \times N \times D}$

3. CLAP सशर्तता

CLAP एम्बेडिंग को इंजेक्ट करने के लिए FiLM तंत्र का उपयोग करता है:

CLAP एम्बेडिंग $e \in \mathbb{R}^d$ को दो-परत पूर्ण-संयोजन नेटवर्क के माध्यम से 2D आयामी वेक्टर में मैप किया जाता है
स्केलिंग पैरामीटर $\gamma$ और ऑफसेट पैरामीटर $\beta$ में विभाजित किया जाता है
विशेषता मॉड्यूलेशन: $\text{FiLM}(Z,\gamma,\beta) = \gamma \odot Z + \beta$

4. त्रि-अक्षीय RoPE Transformer

प्रत्येक Transformer ब्लॉक क्रमिक रूप से समय, आवृत्ति और चैनल अक्षों के साथ अक्षीय ध्यान लागू करता है:

सापेक्ष स्थिति निर्भरता को एनकोड करने के लिए RoPE का उपयोग करता है
विभिन्न अक्षीय इंटरैक्शन को संभालने के लिए बहु-सिर ध्यान तंत्र
अवशिष्ट कनेक्शन और फीड-फॉरवर्ड नेटवर्क

5. आवृत्ति स्पेक्ट्रम अनुमान मॉड्यूल

लक्ष्य स्रोत के आयाम आवृत्ति स्पेक्ट्रम का सीधे अनुमान लगाता है:

प्रत्येक उप-बैंड अनुमानित आवृत्ति स्पेक्ट्रम $\hat{B}_n$ उत्पन्न करने के लिए MLP के माध्यम से जाता है
सभी उप-बैंड को आवृत्ति अक्ष के साथ जोड़ता है
बहु-चैनल जानकारी को एकत्रित करने के लिए चैनल विलय मॉड्यूल के माध्यम से

तकनीकी नवाचार बिंदु

त्रि-अक्षीय मॉडलिंग: ऑडियो पृथक्करण में पहली बार समय, आवृत्ति और स्थानिक आयामों की निर्भरता को एक साथ मॉडल करता है
बहुविध प्रश्न: ऑडियो और पाठ प्रश्नों को एकीकृत रूप से समर्थन करता है, लचीले इंटरैक्शन विधि प्रदान करता है
अनलेबल्ड प्रशिक्षण: CLAP एम्बेडिंग विक्षोभ के माध्यम से छद्म प्रश्न उत्पन्न करता है, समानांतर एनोटेशन डेटा की आवश्यकता नहीं
स्थानिक जानकारी उपयोग: FOA प्रारूप के स्थानिक संकेतों का पूर्ण उपयोग स्रोत पृथक्करण के लिए

प्रायोगिक सेटअप

डेटासेट

DCASE 2025 Task 4 आधिकारिक डेटासेट का उपयोग करता है:

स्वच्छ स्रोत: Anechoic Sound Event 1K, FSD50K, EARS डेटासेट
कक्ष आवेग प्रतिक्रिया: FOA प्रारूप में रिकॉर्ड किए गए RIR
पृष्ठभूमि शोर: FOA-MEIR, FSD50K, ESC-50, DISCO
ऑडियो विनिर्देश: 32 kHz नमूना दर, 16-बिट परिमाणीकरण
मिश्रित ऑडियो: 10 सेकंड की अवधि, अधिकतम 3 घटनाएँ एक साथ ओवरलैप करती हैं

मूल्यांकन मेट्रिक्स

SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
SDR (Signal-to-Distortion Ratio)

कार्यान्वयन विवरण

STFT पैरामीटर: हैनिंग विंडो लंबाई 2048, हॉप लंबाई 1024
आवृत्ति बैंड विभाजन: 25 गैर-अतिव्यापी उप-बैंड
मॉडल पैरामीटर: विशेषता आयाम 128, 8 Transformer ब्लॉक, 4 ध्यान सिर
अनुकूलक: AdamW, सीखने की दर 3×10⁻⁴, वजन क्षय 1×10⁻²
प्रशिक्षण: अधिकतम 300 युग, प्रति युग 2000 नमूने

प्रशिक्षण उद्देश्य

SI-SDR हानि और L1 पुनर्निर्माण हानि को संयोजित करता है: $L = L_{\text{SI-SDR}} + \lambda L_1$ जहाँ $\lambda = 100$

प्रायोगिक परिणाम

मुख्य परिणाम

चैनल कॉन्फ़िगरेशन	ऑडियो सशर्त		पाठ सशर्त
	SI-SDR	SDR	SI-SDR	SDR
wxyz (पूर्ण FOA)	7.296	8.595	4.098	5.664
w (केवल सर्वदिशात्मक चैनल)	5.833	6.785	4.101	4.557

मुख्य निष्कर्ष:

पूर्ण FOA चैनल कॉन्फ़िगरेशन एकल-चैनल कॉन्फ़िगरेशन से काफी बेहतर है, स्थानिक जानकारी के महत्व को सत्यापित करता है
ऑडियो सशर्त प्रश्न पाठ सशर्त प्रश्न से बेहतर प्रदर्शन करते हैं
मॉडल केवल ऑडियो प्रश्न प्रशिक्षण के साथ भी पाठ प्रश्नों को अच्छी तरह संभाल सकता है

विलोपन प्रयोग

Transformer ब्लॉक संख्या	ऑडियो सशर्त		पाठ सशर्त
	SI-SDR	SDR	SI-SDR	SDR
4	4.791	6.273	2.435	3.052
6	6.426	7.752	3.871	4.459
8	7.296	8.595	4.098	5.664

परिणाम विश्लेषण:

Transformer ब्लॉक संख्या में वृद्धि निरंतर प्रदर्शन में सुधार करती है
8-ब्लॉक कॉन्फ़िगरेशन सर्वोत्तम प्रभाव प्राप्त करता है
मॉडल की अच्छी स्केलेबिलिटी प्रदर्शित करता है

केस विश्लेषण

चित्र 2 पाठ प्रश्न का उपयोग करके पृथक्करण उदाहरण दिखाता है, मॉडल मिश्रित ऑडियो से "typing" और "pouring" जैसी लक्ष्य ध्वनियों को सटीक रूप से निकाल सकता है, उच्च निष्ठा और स्पष्टता बनाए रखता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

त्रि-अक्षीय Transformer ने समय-आवृत्ति-स्थानिक निर्भरता को प्रभावी रूप से मॉडल किया
CLAP सशर्तता ने लचीले बहुविध प्रश्नों को लागू किया
अनलेबल्ड डेटा पाइपलाइन ने प्रशिक्षण दक्षता और सामान्यीकरण क्षमता में सुधार किया
स्थानिक जानकारी उच्च-गुणवत्ता ऑडियो पृथक्करण के लिए महत्वपूर्ण है

सीमाएँ

केवल FOA प्रारूप पर सत्यापित, अन्य बहु-चैनल प्रारूपों तक विस्तारित नहीं
पाठ प्रश्न प्रदर्शन अभी भी ऑडियो प्रश्न से कम है
कम्प्यूटेशनल जटिलता अधिक है, वास्तविक समय अनुप्रयोग के लिए अनुकूलन की आवश्यकता है
चरम प्रतिध्वनि वातावरण में मजबूतता को आगे सत्यापन की आवश्यकता है

भविष्य की दिशा

अधिक स्थानिक ऑडियो प्रारूपों तक विस्तार करना
पाठ प्रश्न पृथक्करण प्रदर्शन में सुधार करना
मॉडल संपीड़न और त्वरण अनुकूलन
बड़े पैमाने पर डेटासेट प्रशिक्षण

गहन मूल्यांकन

लाभ

तकनीकी नवाचार मजबूत: पहली बार त्रि-अक्षीय मॉडलिंग स्थानिक ऑडियो पृथक्करण ढांचा प्रस्तावित करता है
व्यावहारिक मूल्य उच्च: बहुविध प्रश्नों का समर्थन करता है, निमज्जनकारी अनुप्रयोगों के लिए उपयुक्त
विधि पूर्णता: डेटा उत्पादन से मॉडल डिजाइन तक पूर्ण पाइपलाइन बनाता है
प्रयोग पर्याप्त: विलोपन प्रयोग और तुलनात्मक विश्लेषण शामिल

कमियाँ

मूल्यांकन सीमा: केवल एक डेटासेट पर सत्यापित
कम्प्यूटेशनल दक्षता: त्रि-अक्षीय मॉडलिंग कम्प्यूटेशनल जटिलता बढ़ाता है
सैद्धांतिक विश्लेषण अपर्याप्त: विधि अभिसरण और सामान्यीकरण क्षमता का सैद्धांतिक विश्लेषण नहीं
वास्तविक समय विचार: वास्तविक समय प्रोसेसिंग की व्यवहार्यता पर चर्चा नहीं

प्रभाव

शैक्षणिक योगदान: स्थानिक ऑडियो पृथक्करण के लिए नया प्रतिमान स्थापित करता है
अनुप्रयोग संभावना: AR/VR, श्रवण यंत्र आदि क्षेत्रों में व्यापक अनुप्रयोग
पुनरुत्पादनशीलता: विस्तृत कार्यान्वयन विवरण प्रदान करता है
प्रेरणा: बहुविध ऑडियो प्रोसेसिंग के लिए नई सोच प्रदान करता है

लागू परिदृश्य

निमज्जनकारी मीडिया: VR/AR वातावरण में ऑडियो प्रोसेसिंग
बुद्धिमान श्रवण सहायता: व्यक्तिगत ध्वनि वृद्धि
सम्मेलन प्रणाली: बहु-व्यक्ति सम्मेलन में भाषण पृथक्करण
रोबोट इंटरैक्शन: जटिल वातावरण में ध्वनि समझ

संदर्भ

पेपर ने 25 संबंधित संदर्भों का हवाला दिया है, जो ऑडियो स्रोत पृथक्करण, स्थानिक ऑडियो प्रोसेसिंग, गहन शिक्षण आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह पेपर एक नवीन स्थानिक ऑडियो स्रोत पृथक्करण ढांचा प्रस्तावित करता है, तकनीकी समाधान पूर्ण है, प्रायोगिक सत्यापन पर्याप्त है, बहुविध प्रश्न और स्थानिक जानकारी उपयोग में महत्वपूर्ण प्रगति प्राप्त की है, निमज्जनकारी ऑडियो अनुप्रयोगों के लिए आधार स्थापित किया है। हालांकि कुछ सीमाएँ हैं, लेकिन समग्र योगदान महत्वपूर्ण है, महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावना है।