Query-based audio source extraction seeks to recover a target source from a mixture conditioned on a query. Existing approaches are largely confined to single-channel audio, leaving the spatial information in multi-channel recordings underexploited. We introduce a query-based spatial audio source extraction framework for recovering dry target signals from first-order ambisonics (FOA) mixtures. Our method accepts either an audio prompt or a text prompt as condition input, enabling flexible end-to-end extraction. The core of our proposed model lies in a tri-axial Transformer that jointly models temporal, frequency, and spatial channel dependencies. The model uses contrastive language-audio pretraining (CLAP) embeddings to enable unified audio-text conditioning via feature-wise linear modulation (FiLM). To eliminate costly annotations and improve generalization, we propose a label-free data pipeline that dynamically generates spatial mixtures and corresponding targets for training. The result of our experiment with high separation quality demonstrates the efficacy of multimodal conditioning and tri-axial modeling. This work establishes a new paradigm for high-fidelity spatial audio separation in immersive applications.
- पेपर ID: 2510.13308
- शीर्षक: Towards Multimodal Query-Based Spatial Audio Source Extraction
- लेखक: Chenxin Yu¹, Hao Ma²*, Xu Li³, Xiao-Lei Zhang²†, Mingjie Shao⁴, Chi Zhang², Xuelong Li²†
- वर्गीकरण: eess.AS (ऑडियो सिग्नल प्रोसेसिंग)
- प्रकाशन तिथि: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.13308
प्रश्न-आधारित ऑडियो स्रोत निष्कर्षण का उद्देश्य मिश्रित ऑडियो से प्रश्न शर्तों के अनुसार लक्ष्य स्रोत को पुनः प्राप्त करना है। मौजूदा विधियाँ मुख्य रूप से एकल-चैनल ऑडियो तक सीमित हैं और बहु-चैनल रिकॉर्डिंग में स्थानिक जानकारी का पूर्ण उपयोग नहीं करती हैं। यह पेपर प्रथम-क्रम सर्वदिशात्मक स्टीरियो (FOA) मिश्रित ऑडियो से स्वच्छ लक्ष्य सिग्नल पुनः प्राप्त करने के लिए एक प्रश्न-आधारित स्थानिक ऑडियो स्रोत निष्कर्षण ढांचा प्रस्तावित करता है। यह विधि ऑडियो संकेत या पाठ संकेत को सशर्त इनपुट के रूप में समर्थन करती है, लचीले अंत-से-अंत निष्कर्षण को सक्षम करती है। मॉडल का मूल त्रि-अक्षीय Transformer है, जो समय, आवृत्ति और स्थानिक चैनल निर्भरता को संयुक्त रूप से मॉडल करता है। मॉडल विपरीत भाषा-ऑडियो पूर्व-प्रशिक्षण (CLAP) एम्बेडिंग का उपयोग करता है, विशेषता रैखिक मॉड्यूलेशन (FiLM) के माध्यम से एकीकृत ऑडियो-पाठ सशर्तता को लागू करता है। महंगी एनोटेशन लागत को समाप्त करने और सामान्यीकरण क्षमता में सुधार के लिए, एक अनलेबल्ड डेटा पाइपलाइन प्रस्तावित की गई है जो प्रशिक्षण के लिए गतिशील रूप से स्थानिक मिश्रित ऑडियो और संबंधित लक्ष्य उत्पन्न करती है। प्रायोगिक परिणाम उच्च गुणवत्ता वाले पृथक्करण प्रभाव दिखाते हैं, जो बहुविध सशर्तता और त्रि-अक्षीय मॉडलिंग की प्रभावशीलता को प्रमाणित करते हैं।
ऑडियो स्रोत पृथक्करण ऑडियो सिग्नल प्रोसेसिंग की एक मौलिक समस्या है, जिसका उद्देश्य जटिल मिश्रित ऑडियो से व्यक्तिगत ध्वनि घटनाओं को पुनः प्राप्त करना है। निमज्जनकारी मीडिया, AR/VR, श्रवण यंत्र और मानव-मशीन इंटरैक्शन जैसे अनुप्रयोगों के विकास के साथ, स्थानिक ऑडियो प्रोसेसिंग की मांग में वृद्धि हो रही है।
- स्थानिक जानकारी का अपर्याप्त उपयोग: अधिकांश मौजूदा विधियाँ समय-क्षेत्र मॉडलिंग या समय-आवृत्ति प्रतिनिधित्व पर केंद्रित हैं, मानव श्रवण धारणा में महत्वपूर्ण स्थानिक संकेतों का पूर्ण उपयोग नहीं करती हैं
- श्रेणी-विशिष्ट प्रशिक्षण: कई पृथक्करण प्रणालियाँ श्रेणी-विशिष्ट प्रशिक्षण दृष्टिकोण अपनाती हैं, जो सामान्यीकरण क्षमता और विविध वास्तविक परिदृश्यों में प्रयोज्यता को सीमित करती हैं
- एकल-चैनल सीमा: हालांकि कुछ अनुसंधान लक्ष्य ध्वनि पृथक्करण के लिए बहुविध संकेतों की खोज करते हैं, फिर भी वे एकल-चैनल ऑडियो तक सीमित हैं
- प्रतिध्वनि वातावरण चुनौतियाँ: पारंपरिक स्थानिक फ़िल्टरिंग या बीमफॉर्मिंग विधियाँ मजबूत स्थानिक प्रतिध्वनि वातावरण में खराब प्रदर्शन करती हैं
एक ऐसी प्रणाली डिजाइन करना जो समय और स्थानिक निर्भरता को संयुक्त रूप से कैप्चर कर सके, साथ ही अंत-से-अंत, प्रश्न-आधारित पृथक्करण ढांचे का समर्थन करे, अभी भी एक खुली चुनौती है। यह पेपर इस अंतर को भरने का लक्ष्य रखता है, ऐसी विधियाँ प्रस्तावित करता है जो प्रतिध्वनि और ध्वनिक रूप से जटिल वातावरण में मजबूत, उच्च-निष्ठा पृथक्करण कर सकें।
- BSAST ढांचा प्रस्तावित करना: Band-split Spatial Audio Separation Transformer, जो समय, आवृत्ति और स्थानिक चैनल संकेतों को संयुक्त रूप से मॉडल करता है, प्रतिध्वनि स्थितियों में मजबूत निष्कर्षण को सक्षम करता है
- CLAP सशर्तता तंत्र का परिचय: CLAP-आधारित प्रश्न सशर्तता तंत्र, जो ऑडियो और पाठ दोनों प्रश्न विधियों का समर्थन करता है, निश्चित श्रेणी सेटिंग से परे जाता है
- अनलेबल्ड डेटा पाइपलाइन डिजाइन करना: गतिशील रूप से स्थानिक मिश्रित ऑडियो और संबंधित लक्ष्य उत्पन्न करना, प्रशिक्षण स्केलेबिलिटी में सुधार करना, महंगी मानव एनोटेशन की आवश्यकता नहीं
- नया प्रतिमान स्थापित करना: निमज्जनकारी अनुप्रयोगों में उच्च-निष्ठा स्थानिक ऑडियो पृथक्करण के लिए नया प्रतिमान
FOA प्रारूप में बहु-चैनल मिश्रित ऑडियो X∈RC×L दिया गया है (C चैनलों की संख्या है, L ऑडियो नमूनों की संख्या है), मिश्रित ऑडियो उत्पादन प्रक्रिया है:
X=∑i=1Msi∗Hi+N
जहाँ M स्रोतों की संख्या है, si स्वच्छ स्रोत सिग्नल है, Hi संबंधित बहु-चैनल कक्ष आवेग प्रतिक्रिया है, * संवलन को दर्शाता है, N गैर-दिशात्मक पृष्ठभूमि शोर को दर्शाता है।
लक्ष्य प्रश्न q (ऑडियो उदाहरण या पाठ विवरण) के अनुसार मिश्रित ऑडियो से संबंधित स्वच्छ लक्ष्य सिग्नल का अनुमान लगाना है:
s^q=fθ(X,q)
BSAST ढांचे में चार मुख्य मॉड्यूल हैं:
- बैंड-विभाजन एनकोडर: आवृत्ति स्पेक्ट्रम को कई उप-बैंड में विभाजित करता है और अव्यक्त एम्बेडिंग निकालता है
- CLAP सशर्तता मॉड्यूल: FiLM के माध्यम से प्रश्न शब्दार्थ मार्गदर्शन को इंजेक्ट करता है
- त्रि-अक्षीय RoPE Transformer: समय, आवृत्ति और चैनल आयामों के साथ निर्भरता को मॉडल करता है
- आवृत्ति स्पेक्ट्रम अनुमान मॉड्यूल: लक्ष्य आवृत्ति स्पेक्ट्रम का सीधे अनुमान लगाता है
इनपुट आवृत्ति स्पेक्ट्रम को N गैर-अतिव्यापी आवृत्ति उप-बैंड में विभाजित करने के लिए बैंड-विभाजन रणनीति अपनाता है:
- जटिल आवृत्ति स्पेक्ट्रम को वास्तविक डोमेन में परिवर्तित करता है (वास्तविक और काल्पनिक भागों को अलग करता है)
- N उप-बैंड में विभाजित करता है Bn∈RC×T×Fn
- प्रत्येक उप-बैंड RMS सामान्यीकरण और रैखिक प्रक्षेपण के माध्यम से एम्बेडिंग उत्पन्न करता है Zn∈RC×T×D
- उप-बैंड अक्ष के साथ स्टैक करता है Z∈RC×T×N×D
CLAP एम्बेडिंग को इंजेक्ट करने के लिए FiLM तंत्र का उपयोग करता है:
- CLAP एम्बेडिंग e∈Rd को दो-परत पूर्ण-संयोजन नेटवर्क के माध्यम से 2D आयामी वेक्टर में मैप किया जाता है
- स्केलिंग पैरामीटर γ और ऑफसेट पैरामीटर β में विभाजित किया जाता है
- विशेषता मॉड्यूलेशन: FiLM(Z,γ,β)=γ⊙Z+β
प्रत्येक Transformer ब्लॉक क्रमिक रूप से समय, आवृत्ति और चैनल अक्षों के साथ अक्षीय ध्यान लागू करता है:
- सापेक्ष स्थिति निर्भरता को एनकोड करने के लिए RoPE का उपयोग करता है
- विभिन्न अक्षीय इंटरैक्शन को संभालने के लिए बहु-सिर ध्यान तंत्र
- अवशिष्ट कनेक्शन और फीड-फॉरवर्ड नेटवर्क
लक्ष्य स्रोत के आयाम आवृत्ति स्पेक्ट्रम का सीधे अनुमान लगाता है:
- प्रत्येक उप-बैंड अनुमानित आवृत्ति स्पेक्ट्रम B^n उत्पन्न करने के लिए MLP के माध्यम से जाता है
- सभी उप-बैंड को आवृत्ति अक्ष के साथ जोड़ता है
- बहु-चैनल जानकारी को एकत्रित करने के लिए चैनल विलय मॉड्यूल के माध्यम से
- त्रि-अक्षीय मॉडलिंग: ऑडियो पृथक्करण में पहली बार समय, आवृत्ति और स्थानिक आयामों की निर्भरता को एक साथ मॉडल करता है
- बहुविध प्रश्न: ऑडियो और पाठ प्रश्नों को एकीकृत रूप से समर्थन करता है, लचीले इंटरैक्शन विधि प्रदान करता है
- अनलेबल्ड प्रशिक्षण: CLAP एम्बेडिंग विक्षोभ के माध्यम से छद्म प्रश्न उत्पन्न करता है, समानांतर एनोटेशन डेटा की आवश्यकता नहीं
- स्थानिक जानकारी उपयोग: FOA प्रारूप के स्थानिक संकेतों का पूर्ण उपयोग स्रोत पृथक्करण के लिए
DCASE 2025 Task 4 आधिकारिक डेटासेट का उपयोग करता है:
- स्वच्छ स्रोत: Anechoic Sound Event 1K, FSD50K, EARS डेटासेट
- कक्ष आवेग प्रतिक्रिया: FOA प्रारूप में रिकॉर्ड किए गए RIR
- पृष्ठभूमि शोर: FOA-MEIR, FSD50K, ESC-50, DISCO
- ऑडियो विनिर्देश: 32 kHz नमूना दर, 16-बिट परिमाणीकरण
- मिश्रित ऑडियो: 10 सेकंड की अवधि, अधिकतम 3 घटनाएँ एक साथ ओवरलैप करती हैं
- SI-SDR (Scale-Invariant Signal-to-Distortion Ratio)
- SDR (Signal-to-Distortion Ratio)
- STFT पैरामीटर: हैनिंग विंडो लंबाई 2048, हॉप लंबाई 1024
- आवृत्ति बैंड विभाजन: 25 गैर-अतिव्यापी उप-बैंड
- मॉडल पैरामीटर: विशेषता आयाम 128, 8 Transformer ब्लॉक, 4 ध्यान सिर
- अनुकूलक: AdamW, सीखने की दर 3×10⁻⁴, वजन क्षय 1×10⁻²
- प्रशिक्षण: अधिकतम 300 युग, प्रति युग 2000 नमूने
SI-SDR हानि और L1 पुनर्निर्माण हानि को संयोजित करता है:
L=LSI-SDR+λL1
जहाँ λ=100
| चैनल कॉन्फ़िगरेशन | ऑडियो सशर्त | | पाठ सशर्त | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| wxyz (पूर्ण FOA) | 7.296 | 8.595 | 4.098 | 5.664 |
| w (केवल सर्वदिशात्मक चैनल) | 5.833 | 6.785 | 4.101 | 4.557 |
मुख्य निष्कर्ष:
- पूर्ण FOA चैनल कॉन्फ़िगरेशन एकल-चैनल कॉन्फ़िगरेशन से काफी बेहतर है, स्थानिक जानकारी के महत्व को सत्यापित करता है
- ऑडियो सशर्त प्रश्न पाठ सशर्त प्रश्न से बेहतर प्रदर्शन करते हैं
- मॉडल केवल ऑडियो प्रश्न प्रशिक्षण के साथ भी पाठ प्रश्नों को अच्छी तरह संभाल सकता है
| Transformer ब्लॉक संख्या | ऑडियो सशर्त | | पाठ सशर्त | |
|---|
| SI-SDR | SDR | SI-SDR | SDR |
| 4 | 4.791 | 6.273 | 2.435 | 3.052 |
| 6 | 6.426 | 7.752 | 3.871 | 4.459 |
| 8 | 7.296 | 8.595 | 4.098 | 5.664 |
परिणाम विश्लेषण:
- Transformer ब्लॉक संख्या में वृद्धि निरंतर प्रदर्शन में सुधार करती है
- 8-ब्लॉक कॉन्फ़िगरेशन सर्वोत्तम प्रभाव प्राप्त करता है
- मॉडल की अच्छी स्केलेबिलिटी प्रदर्शित करता है
चित्र 2 पाठ प्रश्न का उपयोग करके पृथक्करण उदाहरण दिखाता है, मॉडल मिश्रित ऑडियो से "typing" और "pouring" जैसी लक्ष्य ध्वनियों को सटीक रूप से निकाल सकता है, उच्च निष्ठा और स्पष्टता बनाए रखता है।
पारंपरिक विधियाँ मुख्य रूप से एकल-चैनल या स्टीरियो पृथक्करण पर केंद्रित हैं, समय-क्षेत्र मॉडलिंग और समय-आवृत्ति प्रतिनिधित्व में प्रगति प्राप्त की है, लेकिन स्थानिक संकेत उपयोग अपर्याप्त है।
हाल के अनुसंधान ने बहुविध संकेतों के लक्ष्य ध्वनि पृथक्करण की खोज की है, लेकिन मुख्य रूप से एकल-चैनल ऑडियो तक सीमित है, स्थानिक जानकारी का पूर्ण उपयोग नहीं करता है।
पारंपरिक स्थानिक फ़िल्टरिंग और बीमफॉर्मिंग विधियाँ मजबूत प्रतिध्वनि वातावरण में सीमित प्रदर्शन करती हैं, अधिक शक्तिशाली गहन शिक्षण विधियों की आवश्यकता है।
- त्रि-अक्षीय Transformer ने समय-आवृत्ति-स्थानिक निर्भरता को प्रभावी रूप से मॉडल किया
- CLAP सशर्तता ने लचीले बहुविध प्रश्नों को लागू किया
- अनलेबल्ड डेटा पाइपलाइन ने प्रशिक्षण दक्षता और सामान्यीकरण क्षमता में सुधार किया
- स्थानिक जानकारी उच्च-गुणवत्ता ऑडियो पृथक्करण के लिए महत्वपूर्ण है
- केवल FOA प्रारूप पर सत्यापित, अन्य बहु-चैनल प्रारूपों तक विस्तारित नहीं
- पाठ प्रश्न प्रदर्शन अभी भी ऑडियो प्रश्न से कम है
- कम्प्यूटेशनल जटिलता अधिक है, वास्तविक समय अनुप्रयोग के लिए अनुकूलन की आवश्यकता है
- चरम प्रतिध्वनि वातावरण में मजबूतता को आगे सत्यापन की आवश्यकता है
- अधिक स्थानिक ऑडियो प्रारूपों तक विस्तार करना
- पाठ प्रश्न पृथक्करण प्रदर्शन में सुधार करना
- मॉडल संपीड़न और त्वरण अनुकूलन
- बड़े पैमाने पर डेटासेट प्रशिक्षण
- तकनीकी नवाचार मजबूत: पहली बार त्रि-अक्षीय मॉडलिंग स्थानिक ऑडियो पृथक्करण ढांचा प्रस्तावित करता है
- व्यावहारिक मूल्य उच्च: बहुविध प्रश्नों का समर्थन करता है, निमज्जनकारी अनुप्रयोगों के लिए उपयुक्त
- विधि पूर्णता: डेटा उत्पादन से मॉडल डिजाइन तक पूर्ण पाइपलाइन बनाता है
- प्रयोग पर्याप्त: विलोपन प्रयोग और तुलनात्मक विश्लेषण शामिल
- मूल्यांकन सीमा: केवल एक डेटासेट पर सत्यापित
- कम्प्यूटेशनल दक्षता: त्रि-अक्षीय मॉडलिंग कम्प्यूटेशनल जटिलता बढ़ाता है
- सैद्धांतिक विश्लेषण अपर्याप्त: विधि अभिसरण और सामान्यीकरण क्षमता का सैद्धांतिक विश्लेषण नहीं
- वास्तविक समय विचार: वास्तविक समय प्रोसेसिंग की व्यवहार्यता पर चर्चा नहीं
- शैक्षणिक योगदान: स्थानिक ऑडियो पृथक्करण के लिए नया प्रतिमान स्थापित करता है
- अनुप्रयोग संभावना: AR/VR, श्रवण यंत्र आदि क्षेत्रों में व्यापक अनुप्रयोग
- पुनरुत्पादनशीलता: विस्तृत कार्यान्वयन विवरण प्रदान करता है
- प्रेरणा: बहुविध ऑडियो प्रोसेसिंग के लिए नई सोच प्रदान करता है
- निमज्जनकारी मीडिया: VR/AR वातावरण में ऑडियो प्रोसेसिंग
- बुद्धिमान श्रवण सहायता: व्यक्तिगत ध्वनि वृद्धि
- सम्मेलन प्रणाली: बहु-व्यक्ति सम्मेलन में भाषण पृथक्करण
- रोबोट इंटरैक्शन: जटिल वातावरण में ध्वनि समझ
पेपर ने 25 संबंधित संदर्भों का हवाला दिया है, जो ऑडियो स्रोत पृथक्करण, स्थानिक ऑडियो प्रोसेसिंग, गहन शिक्षण आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, अनुसंधान के लिए ठोस सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह पेपर एक नवीन स्थानिक ऑडियो स्रोत पृथक्करण ढांचा प्रस्तावित करता है, तकनीकी समाधान पूर्ण है, प्रायोगिक सत्यापन पर्याप्त है, बहुविध प्रश्न और स्थानिक जानकारी उपयोग में महत्वपूर्ण प्रगति प्राप्त की है, निमज्जनकारी ऑडियो अनुप्रयोगों के लिए आधार स्थापित किया है। हालांकि कुछ सीमाएँ हैं, लेकिन समग्र योगदान महत्वपूर्ण है, महत्वपूर्ण शैक्षणिक मूल्य और अनुप्रयोग संभावना है।