2025-11-16T04:37:12.332621

DÃ©rÃ©verbÃ©ration non-supervisÃ©e de la parole par modÃ¨le hybride

Bahrman, Fontaine, Richard

This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.

academic

अनुपर्यवेक्षित वाक् विनिर्वर्तन संकर मॉडल द्वारा

मूल जानकारी

पेपर ID: 2510.09025
शीर्षक: Déréverbération non-supervisée de la parole par modèle hybride (संकर मॉडल द्वारा अनुपर्यवेक्षित वाक् विनिर्वर्तन)
लेखक: Louis Bahrman, Mathieu Fontaine, Gaël Richard (LTCI, Télécom Paris, Institut Polytechnique de Paris)
वर्गीकरण: cs.SD cs.AI eess.AS
प्रकाशन तिथि: 25 अक्टूबर 10, 2025
पेपर लिंक: https://arxiv.org/abs/2510.09025

सारांश

यह पेपर एक नई प्रशिक्षण रणनीति प्रस्तावित करता है जो केवल पुनर्ध्वनि वाक् का उपयोग करके अनुपर्यवेक्षित तरीके से वाक् विनिर्वर्तन प्रणाली में सुधार करती है। अधिकांश मौजूदा एल्गोरिदम युग्मित स्वच्छ/पुनर्ध्वनि डेटा पर निर्भर करते हैं, जो प्राप्त करना कठिन है। यह विधि सीमित ध्वनिक जानकारी (जैसे पुनर्ध्वनि समय RT60) का उपयोग करके विनिर्वर्तन प्रणाली को प्रशिक्षित करती है। प्रयोगात्मक परिणाम विभिन्न उद्देश्य मेट्रिक्स पर अत्याधुनिक विधियों की तुलना में अधिक सुसंगत प्रदर्शन प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्या: आंतरिक वातावरण में, वाक् संकेत दीवारों के प्रतिबिंब और बाधाओं के विवर्तन से प्रभावित होते हैं, जिससे पुनर्ध्वनि घटना उत्पन्न होती है जो वाक् रिकॉर्डिंग की समझदारी को कम करती है। विनिर्वर्तन विधियों को विकसित करने की आवश्यकता है।
समस्या की महत्ता: पुनर्ध्वनि वाक् गुणवत्ता और समझदारी को गंभीरता से प्रभावित करती है। वाक् पहचान, संचार प्रणाली आदि अनुप्रयोगों में प्रभावी विनिर्वर्तन तकनीक आवश्यक है।
मौजूदा विधियों की सीमाएं:
- विभेदक विधियों को बड़ी मात्रा में (स्वच्छ, पुनर्ध्वनि) युग्मित डेटा की आवश्यकता होती है, जो प्राप्त करना कठिन है
- जनरेटिव विधियों को कम पर्यवेक्षण की आवश्यकता होती है, लेकिन फिर भी स्वच्छ वाक् डेटा की आवश्यकता होती है, जो पुनर्ध्वनि डेटा से अधिक कठिन है
- MetricGAN-U जैसी विधियां केवल पुनर्ध्वनि संकेत का उपयोग करती हैं, लेकिन एकल मेट्रिक अनुकूलन पर आधारित हैं, प्रदर्शन पूर्ण नहीं है
अनुसंधान प्रेरणा: केवल पुनर्ध्वनि वाक् का उपयोग करके एक अनुपर्यवेक्षित विनिर्वर्तन विधि विकसित करना, जो पुनर्ध्वनि समय जैसी सीमित ध्वनिक जानकारी का उपयोग करती है।

मुख्य योगदान

पुनर्ध्वनि स्व-पर्यवेक्षित प्रशिक्षण ढांचा प्रस्तावित किया: पारंपरिक मेट्रिक पर्यवेक्षण के बजाय गहन तंत्रिका नेटवर्क प्रशिक्षण के लिए पुनर्ध्वनि मॉडल का नवीन उपयोग
पुनर्ध्वनि समय-जागरूक प्रशिक्षण रणनीति डिजाइन की: ध्वनिक मॉडल और गहन शिक्षा को संयोजित करते हुए, RT60 जैसे मापदंडों का उपयोग करके प्रशिक्षण का मार्गदर्शन
अधिक सुसंगत प्रदर्शन सुधार प्राप्त किया: कई उद्देश्य मेट्रिक्स पर मेट्रिक-आधारित पर्यवेक्षण विधियों से बेहतर
खुला स्रोत कार्यान्वयन प्रदान किया: कोड, पूर्व-प्रशिक्षित मॉडल और उदाहरण जारी किए, अनुसंधान पुनरुत्पादन को बढ़ावा दिया

विधि विवरण

कार्य परिभाषा

इनपुट: पुनर्ध्वनि वाक् संकेत Y आउटपुट: अनुमानित स्वच्छ वाक् संकेत Ŝ बाधा: प्रशिक्षण के समय केवल पुनर्ध्वनि संकेत का उपयोग, युग्मित स्वच्छ/पुनर्ध्वनि डेटा की आवश्यकता नहीं

मॉडल आर्किटेक्चर

1. समग्र ढांचा

विधि में तीन मुख्य घटक हैं:

पुनर्ध्वनि विश्लेषक A: पुनर्ध्वनि संकेत से ध्वनिक मापदंड (मुख्य रूप से RT60) का अनुमान लगाता है
RIS संश्लेषक S: ध्वनिक मापदंडों के अनुसार कक्ष आवेग प्रतिक्रिया संश्लेषित करता है
कनवल्शन मॉडल C: समय-आवृत्ति डोमेन में क्रॉस-बैंड कनवल्शन करता है

2. पुनर्ध्वनि मॉडल

संकेत मॉडल:

y(n) = (s ⋆ h)(n)

जहां y पुनर्ध्वनि संकेत है, s स्वच्छ संकेत है, h कक्ष आवेग प्रतिक्रिया (RIS) है।

Polack पुनर्ध्वनि मॉडल:

h_l(n) = b(n)e^(-3ln(10)n/(RT60·f_s))

जहां b(n)~N(0,σ²) श्वेत शोर है, RT60 पुनर्ध्वनि समय है।

3. समय-आवृत्ति डोमेन कनवल्शन

लघु-समय फूरियर रूपांतर (STFT) डोमेन में, कनवल्शन को इस प्रकार दर्शाया जाता है:

Y_{f,t} = ∑∑ H_{f,f',t'} S_{f',t-t'}

4. RIS संश्लेषक

संश्लेषित RIS को इस प्रकार परिभाषित किया जाता है:

S(Θ)(n) = {
  |b(n)|e^(-3ln(10)n/(RT60·f_s)), n > n_m
  1,                               n = 0  
  0,                               अन्य
}

तकनीकी नवाचार बिंदु

पुनर्ध्वनि स्व-पर्यवेक्षण रणनीति: पारंपरिक मेट्रिक पर्यवेक्षण के विपरीत, भौतिक पुनर्ध्वनि मॉडल का सीधे उपयोग करके पर्यवेक्षण
क्रॉस-बैंड समय-आवृत्ति कनवल्शन: अवकलनीय समय-आवृत्ति डोमेन कनवल्शन ऑपरेशन को लागू करता है, जो ग्रेडिएंट बैकप्रोपेगेशन को सुविधाजनक बनाता है
पुनर्ध्वनि मिलान हानि फ़ंक्शन:

L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²

प्रयोगात्मक सेटअप

डेटासेट

प्रशिक्षण डेटा: WSJ1 डेटासेट की हेडसेट माइक्रोफोन रिकॉर्डिंग, 73 घंटे ऑडियो, 60307 खंड
RIS डेटा: pyroomacoustics का उपयोग करके 32000 RIS उत्पन्न, 2000 सिम्युलेटेड कक्षों से
कक्ष मापदंड:
- आकार: 5,10×5,10×2.5,4 m³
- RT60: 0.2,1.0 s
- स्रोत-माइक्रोफोन दूरी: 0.75,2.5 m

मूल्यांकन मेट्रिक्स

SISDR: स्केल-अपरिवर्तनीय संकेत विरूपण अनुपात
ESTOI: विस्तारित लघु-समय उद्देश्य समझदारी
WB-PESQ: वाइडबैंड अनुभूत वाक् गुणवत्ता मूल्यांकन
SRMR: वाक् से पुनर्ध्वनि ऊर्जा अनुपात

तुलनात्मक विधियां

दृढ़ पर्यवेक्षण विधि: युग्मित डेटा का उपयोग करके प्रशिक्षित FullSubNet और BiLSTM
कमजोर पर्यवेक्षण विधि: oracle RT60 का उपयोग करने वाले संस्करण
अंध पर्यवेक्षण विधि: अनुमानित RT60 का उपयोग करने वाला पूरी तरह अनुपर्यवेक्षित संस्करण
आधारभूत विधि: MetricGAN-U (BiLSTM+SRMR)

कार्यान्वयन विवरण

ऑडियो प्रसंस्करण: 16kHz नमूना दर, 512-बिंदु Hann विंडो, 50% ओवरलैप
अनुकूलक: Adam अनुकूलक
रोक मानदंड: सत्यापन सेट SISDR मेट्रिक के आधार पर
मॉडल: FullSubNet (FSN) और BiLSTM दो तंत्रिका नेटवर्क आर्किटेक्चर

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडल	पर्यवेक्षण विधि	SISDR	ESTOI	WB-PESQ	SRMR
FSN	दृढ़ पर्यवेक्षण	5.6±3.9	0.84±0.10	2.55±0.67	8.2±3.5
FSN	कमजोर पर्यवेक्षण	2.9±3.5	0.71±0.15	1.78±0.70	6.9±2.8
FSN	अंध पर्यवेक्षण (प्रस्तावित)	2.8±3.4	0.71±0.15	1.78±0.70	6.9±2.8
BiLSTM	दृढ़ पर्यवेक्षण	1.3±4.3	0.78±0.12	2.25±0.78	7.9±3.0
BiLSTM	कमजोर पर्यवेक्षण	1.6±3.7	0.71±0.15	1.84±0.74	6.9±2.8
BiLSTM	अंध पर्यवेक्षण (प्रस्तावित)	1.5±3.7	0.71±0.15	1.84±0.74	6.9±2.8
BiLSTM	SRMR आधारभूत	-1.5±3.5	0.64±0.18	1.78±0.72	10.9±4.3
-	पुनर्ध्वनि संकेत	-1.3±3.5	0.69±0.16	1.75±0.74	6.9±2.9

मुख्य निष्कर्ष

सुसंगतता लाभ: प्रस्तावित विधि SISDR, ESTOI, WB-PESQ तीनों मेट्रिक्स पर SRMR आधारभूत से बेहतर है
आधारभूत सीमाएं: MetricGAN-U आधारभूत SRMR मेट्रिक पर सर्वश्रेष्ठ प्रदर्शन करता है, लेकिन अन्य मेट्रिक्स पर प्रदर्शन में गिरावट आती है, यहां तक कि मूल पुनर्ध्वनि संकेत से भी कम
अनुमान दृढ़ता: अंध पर्यवेक्षण संस्करण कमजोर पर्यवेक्षण संस्करण के लगभग समान प्रदर्शन करता है, जो दर्शाता है कि विधि RT60 अनुमान त्रुटि के प्रति दृढ़ है
मॉडल अनुकूलन: BiLSTM दृढ़ से कमजोर पर्यवेक्षण में प्रदर्शन में कम गिरावट दिखाता है, संभवतः क्योंकि यह केवल आयाम मास्क को संसाधित करता है, चरण व्यवधान के प्रति असंवेदनशील है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

पुनर्ध्वनि स्व-पर्यवेक्षण मेट्रिक स्व-पर्यवेक्षण की तुलना में अधिक सुसंगत प्रदर्शन सुधार प्राप्त कर सकता है
यह विधि कई उद्देश्य मेट्रिक्स पर सुधार प्राप्त करती है, एकल मेट्रिक अनुकूलन की सीमाओं से बचती है
अंध RT60 अनुमान प्रदर्शन को महत्वपूर्ण रूप से प्रभावित नहीं करता है, विधि की व्यावहारिकता को बढ़ाता है

सीमाएं

मॉडल जटिलता: शुद्ध डेटा-संचालित विधियों की तुलना में, अतिरिक्त पुनर्ध्वनि मॉडलिंग घटकों की आवश्यकता होती है
पैरामीटर निर्भरता: हालांकि अंध अनुमान संभव है, फिर भी RT60 जैसे ध्वनिक मापदंडों की सटीकता पर निर्भर है
पुनर्ध्वनि मॉडल सरलीकरण: उपयोग किया जाने वाला Polack मॉडल एक सरलीकृत पुनर्ध्वनि मॉडल है, जो वास्तविक वातावरण के साथ पूरी तरह मेल नहीं खा सकता है
चरण संवेदनशीलता: जटिल स्पेक्ट्रम विधियां (जैसे FSN) पुनर्ध्वनि मॉडल के चरण व्यवधान के प्रति अधिक संवेदनशील हैं

भविष्य की दिशाएं

जनरेटिव विस्तार: संभाव्य RIS मॉडल को बेहतर तरीके से विचार करने के लिए जनरेटिव मॉडल पर विधि लागू करना
अधिक जटिल पुनर्ध्वनि मॉडल: अधिक सटीक पुनर्ध्वनि भौतिक मॉडल पर विचार करना
बहु-चैनल विस्तार: बहु-माइक्रोफोन परिदृश्य तक विस्तार करना
वास्तविक समय अनुप्रयोग: वास्तविक समय प्रसंस्करण का समर्थन करने के लिए कम्प्यूटेशनल दक्षता को अनुकूलित करना

गहन मूल्यांकन

लाभ

मजबूत नवाचार: पहली बार पुनर्ध्वनि स्व-पर्यवेक्षण प्रशिक्षण रणनीति प्रस्तावित की गई, तकनीकी मार्ग नवीन है
उच्च व्यावहारिक मूल्य: युग्मित प्रशिक्षण डेटा प्राप्त करने की कठिनाई की वास्तविक समस्या को हल करता है
व्यापक प्रयोग: कई मेट्रिक्स और मॉडल आर्किटेक्चर पर व्यापक मूल्यांकन
खुला स्रोत योगदान: पूर्ण कोड और मॉडल प्रदान करता है, अनुसंधान पुनरुत्पादन को बढ़ावा देता है
ठोस सैद्धांतिक आधार: परिपक्व ध्वनिक पुनर्ध्वनि सिद्धांत पर आधारित

कमियां

प्रदर्शन अंतराल: दृढ़ पर्यवेक्षण विधियों की तुलना में अभी भी स्पष्ट प्रदर्शन अंतराल है
मूल्यांकन सीमाएं: केवल सिम्युलेटेड डेटा पर मूल्यांकन, वास्तविक वातावरण सत्यापन की कमी
पैरामीटर संवेदनशीलता विश्लेषण अपर्याप्त: पुनर्ध्वनि मॉडल मापदंडों के प्रति संवेदनशीलता विश्लेषण सीमित है
कम्प्यूटेशनल ओवरहेड: प्रशिक्षण के समय अतिरिक्त पुनर्ध्वनि मॉडलिंग गणना की आवश्यकता होती है

प्रभाव

शैक्षणिक योगदान: वाक् विनिर्वर्तन के लिए नई अनुपर्यवेक्षित प्रशिक्षण प्रतिमान प्रदान करता है
व्यावहारिक मूल्य: उच्च-गुणवत्ता वाले विनिर्वर्तन प्रणाली के डेटा आवश्यकताओं को कम करता है
पुनरुत्पादनीयता: खुला स्रोत कोड और विस्तृत प्रयोगात्मक सेटअप पुनरुत्पादनीयता सुनिश्चित करते हैं
प्रेरणा मूल्य: अन्य वाक् वृद्धि कार्यों के लिए भौतिक मॉडल पर्यवेक्षण के विचार प्रदान करता है

लागू परिदृश्य

डेटा-दुर्लभ परिदृश्य: युग्मित प्रशिक्षण डेटा की कमी वाले अनुप्रयोग वातावरण
विशिष्ट ध्वनिक वातावरण: जहां मूल ध्वनिक मापदंड ज्ञात हैं
तीव्र तैनाती: नए वातावरण के लिए तीव्र अनुकूलन की आवश्यकता वाली प्रणालियां
अनुसंधान प्रोटोटाइप: अधिक जटिल प्रणालियों के लिए आधार घटक के रूप में

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

Polack पुनर्ध्वनि मॉडल का शास्त्रीय सैद्धांतिक आधार
WPE जैसी पारंपरिक विनिर्वर्तन विधियां
MetricGAN-U जैसी नवीनतम अनुपर्यवेक्षित विधियां
FullSubNet जैसे उन्नत वाक् वृद्धि मॉडल
पुनर्ध्वनि मापदंड अंध अनुमान के संबंधित एल्गोरिदम

यह पेपर एक नवीन अनुपर्यवेक्षित वाक् विनिर्वर्तन ढांचा प्रस्तावित करता है, जो ध्वनिक मॉडलिंग और गहन शिक्षा को चतुराई से संयोजित करके, व्यावहारिकता और प्रदर्शन के बीच एक अच्छा संतुलन बिंदु खोजता है। हालांकि दृढ़ पर्यवेक्षण विधियों की तुलना में अभी भी अंतराल है, लेकिन वास्तविक अनुप्रयोगों में डेटा प्राप्ति कठिनाई की समस्या को हल करने के लिए एक मूल्यवान समाधान प्रदान करता है।

DÃ©rÃ©verbÃ©ration non-supervisÃ©e de la parole par modÃ¨le hybride

अनुपर्यवेक्षित वाक् विनिर्वर्तन संकर मॉडल द्वारा

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

1. समग्र ढांचा

2. पुनर्ध्वनि मॉडल

3. समय-आवृत्ति डोमेन कनवल्शन

4. RIS संश्लेषक

तकनीकी नवाचार बिंदु

प्रयोगात्मक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलनात्मक विधियां

कार्यान्वयन विवरण

प्रयोगात्मक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

संबंधित कार्य

पारंपरिक विधियां

गहन शिक्षा विधियां

अनुपर्यवेक्षित विधियां

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

लाभ

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ