This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
यह पेपर एक नई प्रशिक्षण रणनीति प्रस्तावित करता है जो केवल पुनर्ध्वनि वाक् का उपयोग करके अनुपर्यवेक्षित तरीके से वाक् विनिर्वर्तन प्रणाली में सुधार करती है। अधिकांश मौजूदा एल्गोरिदम युग्मित स्वच्छ/पुनर्ध्वनि डेटा पर निर्भर करते हैं, जो प्राप्त करना कठिन है। यह विधि सीमित ध्वनिक जानकारी (जैसे पुनर्ध्वनि समय RT60) का उपयोग करके विनिर्वर्तन प्रणाली को प्रशिक्षित करती है। प्रयोगात्मक परिणाम विभिन्न उद्देश्य मेट्रिक्स पर अत्याधुनिक विधियों की तुलना में अधिक सुसंगत प्रदर्शन प्रदर्शित करते हैं।
मुख्य समस्या: आंतरिक वातावरण में, वाक् संकेत दीवारों के प्रतिबिंब और बाधाओं के विवर्तन से प्रभावित होते हैं, जिससे पुनर्ध्वनि घटना उत्पन्न होती है जो वाक् रिकॉर्डिंग की समझदारी को कम करती है। विनिर्वर्तन विधियों को विकसित करने की आवश्यकता है।
समस्या की महत्ता: पुनर्ध्वनि वाक् गुणवत्ता और समझदारी को गंभीरता से प्रभावित करती है। वाक् पहचान, संचार प्रणाली आदि अनुप्रयोगों में प्रभावी विनिर्वर्तन तकनीक आवश्यक है।
मौजूदा विधियों की सीमाएं:
विभेदक विधियों को बड़ी मात्रा में (स्वच्छ, पुनर्ध्वनि) युग्मित डेटा की आवश्यकता होती है, जो प्राप्त करना कठिन है
जनरेटिव विधियों को कम पर्यवेक्षण की आवश्यकता होती है, लेकिन फिर भी स्वच्छ वाक् डेटा की आवश्यकता होती है, जो पुनर्ध्वनि डेटा से अधिक कठिन है
MetricGAN-U जैसी विधियां केवल पुनर्ध्वनि संकेत का उपयोग करती हैं, लेकिन एकल मेट्रिक अनुकूलन पर आधारित हैं, प्रदर्शन पूर्ण नहीं है
अनुसंधान प्रेरणा: केवल पुनर्ध्वनि वाक् का उपयोग करके एक अनुपर्यवेक्षित विनिर्वर्तन विधि विकसित करना, जो पुनर्ध्वनि समय जैसी सीमित ध्वनिक जानकारी का उपयोग करती है।
पुनर्ध्वनि स्व-पर्यवेक्षित प्रशिक्षण ढांचा प्रस्तावित किया: पारंपरिक मेट्रिक पर्यवेक्षण के बजाय गहन तंत्रिका नेटवर्क प्रशिक्षण के लिए पुनर्ध्वनि मॉडल का नवीन उपयोग
पुनर्ध्वनि समय-जागरूक प्रशिक्षण रणनीति डिजाइन की: ध्वनिक मॉडल और गहन शिक्षा को संयोजित करते हुए, RT60 जैसे मापदंडों का उपयोग करके प्रशिक्षण का मार्गदर्शन
अधिक सुसंगत प्रदर्शन सुधार प्राप्त किया: कई उद्देश्य मेट्रिक्स पर मेट्रिक-आधारित पर्यवेक्षण विधियों से बेहतर
खुला स्रोत कार्यान्वयन प्रदान किया: कोड, पूर्व-प्रशिक्षित मॉडल और उदाहरण जारी किए, अनुसंधान पुनरुत्पादन को बढ़ावा दिया
इनपुट: पुनर्ध्वनि वाक् संकेत Y
आउटपुट: अनुमानित स्वच्छ वाक् संकेत Ŝ
बाधा: प्रशिक्षण के समय केवल पुनर्ध्वनि संकेत का उपयोग, युग्मित स्वच्छ/पुनर्ध्वनि डेटा की आवश्यकता नहीं
सुसंगतता लाभ: प्रस्तावित विधि SISDR, ESTOI, WB-PESQ तीनों मेट्रिक्स पर SRMR आधारभूत से बेहतर है
आधारभूत सीमाएं: MetricGAN-U आधारभूत SRMR मेट्रिक पर सर्वश्रेष्ठ प्रदर्शन करता है, लेकिन अन्य मेट्रिक्स पर प्रदर्शन में गिरावट आती है, यहां तक कि मूल पुनर्ध्वनि संकेत से भी कम
अनुमान दृढ़ता: अंध पर्यवेक्षण संस्करण कमजोर पर्यवेक्षण संस्करण के लगभग समान प्रदर्शन करता है, जो दर्शाता है कि विधि RT60 अनुमान त्रुटि के प्रति दृढ़ है
मॉडल अनुकूलन: BiLSTM दृढ़ से कमजोर पर्यवेक्षण में प्रदर्शन में कम गिरावट दिखाता है, संभवतः क्योंकि यह केवल आयाम मास्क को संसाधित करता है, चरण व्यवधान के प्रति असंवेदनशील है
पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
Polack पुनर्ध्वनि मॉडल का शास्त्रीय सैद्धांतिक आधार
WPE जैसी पारंपरिक विनिर्वर्तन विधियां
MetricGAN-U जैसी नवीनतम अनुपर्यवेक्षित विधियां
FullSubNet जैसे उन्नत वाक् वृद्धि मॉडल
पुनर्ध्वनि मापदंड अंध अनुमान के संबंधित एल्गोरिदम
यह पेपर एक नवीन अनुपर्यवेक्षित वाक् विनिर्वर्तन ढांचा प्रस्तावित करता है, जो ध्वनिक मॉडलिंग और गहन शिक्षा को चतुराई से संयोजित करके, व्यावहारिकता और प्रदर्शन के बीच एक अच्छा संतुलन बिंदु खोजता है। हालांकि दृढ़ पर्यवेक्षण विधियों की तुलना में अभी भी अंतराल है, लेकिन वास्तविक अनुप्रयोगों में डेटा प्राप्ति कठिनाई की समस्या को हल करने के लिए एक मूल्यवान समाधान प्रदान करता है।