2025-11-16T04:37:12.332621

Déréverbération non-supervisée de la parole par modèle hybride

Bahrman, Fontaine, Richard
This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
academic

अनुपर्यवेक्षित वाक् विनिर्वर्तन संकर मॉडल द्वारा

मूल जानकारी

  • पेपर ID: 2510.09025
  • शीर्षक: Déréverbération non-supervisée de la parole par modèle hybride (संकर मॉडल द्वारा अनुपर्यवेक्षित वाक् विनिर्वर्तन)
  • लेखक: Louis Bahrman, Mathieu Fontaine, Gaël Richard (LTCI, Télécom Paris, Institut Polytechnique de Paris)
  • वर्गीकरण: cs.SD cs.AI eess.AS
  • प्रकाशन तिथि: 25 अक्टूबर 10, 2025
  • पेपर लिंक: https://arxiv.org/abs/2510.09025

सारांश

यह पेपर एक नई प्रशिक्षण रणनीति प्रस्तावित करता है जो केवल पुनर्ध्वनि वाक् का उपयोग करके अनुपर्यवेक्षित तरीके से वाक् विनिर्वर्तन प्रणाली में सुधार करती है। अधिकांश मौजूदा एल्गोरिदम युग्मित स्वच्छ/पुनर्ध्वनि डेटा पर निर्भर करते हैं, जो प्राप्त करना कठिन है। यह विधि सीमित ध्वनिक जानकारी (जैसे पुनर्ध्वनि समय RT60) का उपयोग करके विनिर्वर्तन प्रणाली को प्रशिक्षित करती है। प्रयोगात्मक परिणाम विभिन्न उद्देश्य मेट्रिक्स पर अत्याधुनिक विधियों की तुलना में अधिक सुसंगत प्रदर्शन प्रदर्शित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

  1. मुख्य समस्या: आंतरिक वातावरण में, वाक् संकेत दीवारों के प्रतिबिंब और बाधाओं के विवर्तन से प्रभावित होते हैं, जिससे पुनर्ध्वनि घटना उत्पन्न होती है जो वाक् रिकॉर्डिंग की समझदारी को कम करती है। विनिर्वर्तन विधियों को विकसित करने की आवश्यकता है।
  2. समस्या की महत्ता: पुनर्ध्वनि वाक् गुणवत्ता और समझदारी को गंभीरता से प्रभावित करती है। वाक् पहचान, संचार प्रणाली आदि अनुप्रयोगों में प्रभावी विनिर्वर्तन तकनीक आवश्यक है।
  3. मौजूदा विधियों की सीमाएं:
    • विभेदक विधियों को बड़ी मात्रा में (स्वच्छ, पुनर्ध्वनि) युग्मित डेटा की आवश्यकता होती है, जो प्राप्त करना कठिन है
    • जनरेटिव विधियों को कम पर्यवेक्षण की आवश्यकता होती है, लेकिन फिर भी स्वच्छ वाक् डेटा की आवश्यकता होती है, जो पुनर्ध्वनि डेटा से अधिक कठिन है
    • MetricGAN-U जैसी विधियां केवल पुनर्ध्वनि संकेत का उपयोग करती हैं, लेकिन एकल मेट्रिक अनुकूलन पर आधारित हैं, प्रदर्शन पूर्ण नहीं है
  4. अनुसंधान प्रेरणा: केवल पुनर्ध्वनि वाक् का उपयोग करके एक अनुपर्यवेक्षित विनिर्वर्तन विधि विकसित करना, जो पुनर्ध्वनि समय जैसी सीमित ध्वनिक जानकारी का उपयोग करती है।

मुख्य योगदान

  1. पुनर्ध्वनि स्व-पर्यवेक्षित प्रशिक्षण ढांचा प्रस्तावित किया: पारंपरिक मेट्रिक पर्यवेक्षण के बजाय गहन तंत्रिका नेटवर्क प्रशिक्षण के लिए पुनर्ध्वनि मॉडल का नवीन उपयोग
  2. पुनर्ध्वनि समय-जागरूक प्रशिक्षण रणनीति डिजाइन की: ध्वनिक मॉडल और गहन शिक्षा को संयोजित करते हुए, RT60 जैसे मापदंडों का उपयोग करके प्रशिक्षण का मार्गदर्शन
  3. अधिक सुसंगत प्रदर्शन सुधार प्राप्त किया: कई उद्देश्य मेट्रिक्स पर मेट्रिक-आधारित पर्यवेक्षण विधियों से बेहतर
  4. खुला स्रोत कार्यान्वयन प्रदान किया: कोड, पूर्व-प्रशिक्षित मॉडल और उदाहरण जारी किए, अनुसंधान पुनरुत्पादन को बढ़ावा दिया

विधि विवरण

कार्य परिभाषा

इनपुट: पुनर्ध्वनि वाक् संकेत Y आउटपुट: अनुमानित स्वच्छ वाक् संकेत Ŝ बाधा: प्रशिक्षण के समय केवल पुनर्ध्वनि संकेत का उपयोग, युग्मित स्वच्छ/पुनर्ध्वनि डेटा की आवश्यकता नहीं

मॉडल आर्किटेक्चर

1. समग्र ढांचा

विधि में तीन मुख्य घटक हैं:

  • पुनर्ध्वनि विश्लेषक A: पुनर्ध्वनि संकेत से ध्वनिक मापदंड (मुख्य रूप से RT60) का अनुमान लगाता है
  • RIS संश्लेषक S: ध्वनिक मापदंडों के अनुसार कक्ष आवेग प्रतिक्रिया संश्लेषित करता है
  • कनवल्शन मॉडल C: समय-आवृत्ति डोमेन में क्रॉस-बैंड कनवल्शन करता है

2. पुनर्ध्वनि मॉडल

संकेत मॉडल:

y(n) = (s ⋆ h)(n)

जहां y पुनर्ध्वनि संकेत है, s स्वच्छ संकेत है, h कक्ष आवेग प्रतिक्रिया (RIS) है।

Polack पुनर्ध्वनि मॉडल:

h_l(n) = b(n)e^(-3ln(10)n/(RT60·f_s))

जहां b(n)~N(0,σ²) श्वेत शोर है, RT60 पुनर्ध्वनि समय है।

3. समय-आवृत्ति डोमेन कनवल्शन

लघु-समय फूरियर रूपांतर (STFT) डोमेन में, कनवल्शन को इस प्रकार दर्शाया जाता है:

Y_{f,t} = ∑∑ H_{f,f',t'} S_{f',t-t'}

4. RIS संश्लेषक

संश्लेषित RIS को इस प्रकार परिभाषित किया जाता है:

S(Θ)(n) = {
  |b(n)|e^(-3ln(10)n/(RT60·f_s)), n > n_m
  1,                               n = 0  
  0,                               अन्य
}

तकनीकी नवाचार बिंदु

  1. पुनर्ध्वनि स्व-पर्यवेक्षण रणनीति: पारंपरिक मेट्रिक पर्यवेक्षण के विपरीत, भौतिक पुनर्ध्वनि मॉडल का सीधे उपयोग करके पर्यवेक्षण
  2. क्रॉस-बैंड समय-आवृत्ति कनवल्शन: अवकलनीय समय-आवृत्ति डोमेन कनवल्शन ऑपरेशन को लागू करता है, जो ग्रेडिएंट बैकप्रोपेगेशन को सुविधाजनक बनाता है
  3. पुनर्ध्वनि मिलान हानि फ़ंक्शन:
L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²

प्रयोगात्मक सेटअप

डेटासेट

  • प्रशिक्षण डेटा: WSJ1 डेटासेट की हेडसेट माइक्रोफोन रिकॉर्डिंग, 73 घंटे ऑडियो, 60307 खंड
  • RIS डेटा: pyroomacoustics का उपयोग करके 32000 RIS उत्पन्न, 2000 सिम्युलेटेड कक्षों से
  • कक्ष मापदंड:
    • आकार: 5,10×5,10×2.5,4
    • RT60: 0.2,1.0 s
    • स्रोत-माइक्रोफोन दूरी: 0.75,2.5 m

मूल्यांकन मेट्रिक्स

  • SISDR: स्केल-अपरिवर्तनीय संकेत विरूपण अनुपात
  • ESTOI: विस्तारित लघु-समय उद्देश्य समझदारी
  • WB-PESQ: वाइडबैंड अनुभूत वाक् गुणवत्ता मूल्यांकन
  • SRMR: वाक् से पुनर्ध्वनि ऊर्जा अनुपात

तुलनात्मक विधियां

  1. दृढ़ पर्यवेक्षण विधि: युग्मित डेटा का उपयोग करके प्रशिक्षित FullSubNet और BiLSTM
  2. कमजोर पर्यवेक्षण विधि: oracle RT60 का उपयोग करने वाले संस्करण
  3. अंध पर्यवेक्षण विधि: अनुमानित RT60 का उपयोग करने वाला पूरी तरह अनुपर्यवेक्षित संस्करण
  4. आधारभूत विधि: MetricGAN-U (BiLSTM+SRMR)

कार्यान्वयन विवरण

  • ऑडियो प्रसंस्करण: 16kHz नमूना दर, 512-बिंदु Hann विंडो, 50% ओवरलैप
  • अनुकूलक: Adam अनुकूलक
  • रोक मानदंड: सत्यापन सेट SISDR मेट्रिक के आधार पर
  • मॉडल: FullSubNet (FSN) और BiLSTM दो तंत्रिका नेटवर्क आर्किटेक्चर

प्रयोगात्मक परिणाम

मुख्य परिणाम

मॉडलपर्यवेक्षण विधिSISDRESTOIWB-PESQSRMR
FSNदृढ़ पर्यवेक्षण5.6±3.90.84±0.102.55±0.678.2±3.5
FSNकमजोर पर्यवेक्षण2.9±3.50.71±0.151.78±0.706.9±2.8
FSNअंध पर्यवेक्षण (प्रस्तावित)2.8±3.40.71±0.151.78±0.706.9±2.8
BiLSTMदृढ़ पर्यवेक्षण1.3±4.30.78±0.122.25±0.787.9±3.0
BiLSTMकमजोर पर्यवेक्षण1.6±3.70.71±0.151.84±0.746.9±2.8
BiLSTMअंध पर्यवेक्षण (प्रस्तावित)1.5±3.70.71±0.151.84±0.746.9±2.8
BiLSTMSRMR आधारभूत-1.5±3.50.64±0.181.78±0.7210.9±4.3
-पुनर्ध्वनि संकेत-1.3±3.50.69±0.161.75±0.746.9±2.9

मुख्य निष्कर्ष

  1. सुसंगतता लाभ: प्रस्तावित विधि SISDR, ESTOI, WB-PESQ तीनों मेट्रिक्स पर SRMR आधारभूत से बेहतर है
  2. आधारभूत सीमाएं: MetricGAN-U आधारभूत SRMR मेट्रिक पर सर्वश्रेष्ठ प्रदर्शन करता है, लेकिन अन्य मेट्रिक्स पर प्रदर्शन में गिरावट आती है, यहां तक कि मूल पुनर्ध्वनि संकेत से भी कम
  3. अनुमान दृढ़ता: अंध पर्यवेक्षण संस्करण कमजोर पर्यवेक्षण संस्करण के लगभग समान प्रदर्शन करता है, जो दर्शाता है कि विधि RT60 अनुमान त्रुटि के प्रति दृढ़ है
  4. मॉडल अनुकूलन: BiLSTM दृढ़ से कमजोर पर्यवेक्षण में प्रदर्शन में कम गिरावट दिखाता है, संभवतः क्योंकि यह केवल आयाम मास्क को संसाधित करता है, चरण व्यवधान के प्रति असंवेदनशील है

संबंधित कार्य

पारंपरिक विधियां

  • सांख्यिकीय संकेत प्रसंस्करण: जैसे भारित पूर्वानुमान त्रुटि (WPE) विधि
  • कनवल्शन स्थानांतरण फ़ंक्शन सन्निकटन: सबबैंड में पुनर्ध्वनि को फ़िल्टरिंग प्रक्रिया के रूप में मॉडल करना

गहन शिक्षा विधियां

  • विभेदक विधियां: सीधे स्वच्छ संकेत या जटिल मास्क की भविष्यवाणी करना
  • जनरेटिव विधियां: जैसे परिवर्तनशील ऑटोएनकोडर स्वच्छ वाक् वितरण सीखना
  • संकर विधियां: पारंपरिक मॉडल और गहन शिक्षा को संयोजित करना, जैसे USDNet

अनुपर्यवेक्षित विधियां

  • MetricGAN-U: विशिष्ट मेट्रिक्स अनुकूलन के लिए प्रतिकूल नेटवर्क का उपयोग करना
  • प्रसार मॉडल विधियां: जैसे BUDDy अंध विनिर्वर्तन के लिए प्रसार मॉडल का उपयोग करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. पुनर्ध्वनि स्व-पर्यवेक्षण मेट्रिक स्व-पर्यवेक्षण की तुलना में अधिक सुसंगत प्रदर्शन सुधार प्राप्त कर सकता है
  2. यह विधि कई उद्देश्य मेट्रिक्स पर सुधार प्राप्त करती है, एकल मेट्रिक अनुकूलन की सीमाओं से बचती है
  3. अंध RT60 अनुमान प्रदर्शन को महत्वपूर्ण रूप से प्रभावित नहीं करता है, विधि की व्यावहारिकता को बढ़ाता है

सीमाएं

  1. मॉडल जटिलता: शुद्ध डेटा-संचालित विधियों की तुलना में, अतिरिक्त पुनर्ध्वनि मॉडलिंग घटकों की आवश्यकता होती है
  2. पैरामीटर निर्भरता: हालांकि अंध अनुमान संभव है, फिर भी RT60 जैसे ध्वनिक मापदंडों की सटीकता पर निर्भर है
  3. पुनर्ध्वनि मॉडल सरलीकरण: उपयोग किया जाने वाला Polack मॉडल एक सरलीकृत पुनर्ध्वनि मॉडल है, जो वास्तविक वातावरण के साथ पूरी तरह मेल नहीं खा सकता है
  4. चरण संवेदनशीलता: जटिल स्पेक्ट्रम विधियां (जैसे FSN) पुनर्ध्वनि मॉडल के चरण व्यवधान के प्रति अधिक संवेदनशील हैं

भविष्य की दिशाएं

  1. जनरेटिव विस्तार: संभाव्य RIS मॉडल को बेहतर तरीके से विचार करने के लिए जनरेटिव मॉडल पर विधि लागू करना
  2. अधिक जटिल पुनर्ध्वनि मॉडल: अधिक सटीक पुनर्ध्वनि भौतिक मॉडल पर विचार करना
  3. बहु-चैनल विस्तार: बहु-माइक्रोफोन परिदृश्य तक विस्तार करना
  4. वास्तविक समय अनुप्रयोग: वास्तविक समय प्रसंस्करण का समर्थन करने के लिए कम्प्यूटेशनल दक्षता को अनुकूलित करना

गहन मूल्यांकन

लाभ

  1. मजबूत नवाचार: पहली बार पुनर्ध्वनि स्व-पर्यवेक्षण प्रशिक्षण रणनीति प्रस्तावित की गई, तकनीकी मार्ग नवीन है
  2. उच्च व्यावहारिक मूल्य: युग्मित प्रशिक्षण डेटा प्राप्त करने की कठिनाई की वास्तविक समस्या को हल करता है
  3. व्यापक प्रयोग: कई मेट्रिक्स और मॉडल आर्किटेक्चर पर व्यापक मूल्यांकन
  4. खुला स्रोत योगदान: पूर्ण कोड और मॉडल प्रदान करता है, अनुसंधान पुनरुत्पादन को बढ़ावा देता है
  5. ठोस सैद्धांतिक आधार: परिपक्व ध्वनिक पुनर्ध्वनि सिद्धांत पर आधारित

कमियां

  1. प्रदर्शन अंतराल: दृढ़ पर्यवेक्षण विधियों की तुलना में अभी भी स्पष्ट प्रदर्शन अंतराल है
  2. मूल्यांकन सीमाएं: केवल सिम्युलेटेड डेटा पर मूल्यांकन, वास्तविक वातावरण सत्यापन की कमी
  3. पैरामीटर संवेदनशीलता विश्लेषण अपर्याप्त: पुनर्ध्वनि मॉडल मापदंडों के प्रति संवेदनशीलता विश्लेषण सीमित है
  4. कम्प्यूटेशनल ओवरहेड: प्रशिक्षण के समय अतिरिक्त पुनर्ध्वनि मॉडलिंग गणना की आवश्यकता होती है

प्रभाव

  1. शैक्षणिक योगदान: वाक् विनिर्वर्तन के लिए नई अनुपर्यवेक्षित प्रशिक्षण प्रतिमान प्रदान करता है
  2. व्यावहारिक मूल्य: उच्च-गुणवत्ता वाले विनिर्वर्तन प्रणाली के डेटा आवश्यकताओं को कम करता है
  3. पुनरुत्पादनीयता: खुला स्रोत कोड और विस्तृत प्रयोगात्मक सेटअप पुनरुत्पादनीयता सुनिश्चित करते हैं
  4. प्रेरणा मूल्य: अन्य वाक् वृद्धि कार्यों के लिए भौतिक मॉडल पर्यवेक्षण के विचार प्रदान करता है

लागू परिदृश्य

  1. डेटा-दुर्लभ परिदृश्य: युग्मित प्रशिक्षण डेटा की कमी वाले अनुप्रयोग वातावरण
  2. विशिष्ट ध्वनिक वातावरण: जहां मूल ध्वनिक मापदंड ज्ञात हैं
  3. तीव्र तैनाती: नए वातावरण के लिए तीव्र अनुकूलन की आवश्यकता वाली प्रणालियां
  4. अनुसंधान प्रोटोटाइप: अधिक जटिल प्रणालियों के लिए आधार घटक के रूप में

संदर्भ

पेपर संबंधित क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

  • Polack पुनर्ध्वनि मॉडल का शास्त्रीय सैद्धांतिक आधार
  • WPE जैसी पारंपरिक विनिर्वर्तन विधियां
  • MetricGAN-U जैसी नवीनतम अनुपर्यवेक्षित विधियां
  • FullSubNet जैसे उन्नत वाक् वृद्धि मॉडल
  • पुनर्ध्वनि मापदंड अंध अनुमान के संबंधित एल्गोरिदम

यह पेपर एक नवीन अनुपर्यवेक्षित वाक् विनिर्वर्तन ढांचा प्रस्तावित करता है, जो ध्वनिक मॉडलिंग और गहन शिक्षा को चतुराई से संयोजित करके, व्यावहारिकता और प्रदर्शन के बीच एक अच्छा संतुलन बिंदु खोजता है। हालांकि दृढ़ पर्यवेक्षण विधियों की तुलना में अभी भी अंतराल है, लेकिन वास्तविक अनुप्रयोगों में डेटा प्राप्ति कठिनाई की समस्या को हल करने के लिए एक मूल्यवान समाधान प्रदान करता है।