Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
Li, Cheng, Zhang et al.
This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.
academic
स्थानिक-संवर्धित अनुक्रम-से-अनुक्रम तंत्रिका वक्ता विभाजन बैठकों के लिए
यह पेपर एक स्थानिक-संवर्धित अनुक्रम-से-अनुक्रम तंत्रिका वक्ता विभाजन (SA-S2SND) ढांचा प्रस्तावित करता है, जो SRP-DNN द्वारा अनुमानित आगमन की दिशा (DOA) संकेतों को S2SND मुख्य नेटवर्क में एकीकृत करता है। दो-चरणीय प्रशिक्षण रणनीति अपनाई गई है: मॉडल पहले एकल-चैनल ऑडियो और DOA विशेषताओं के साथ प्रशिक्षित होता है, फिर DOA मार्गदर्शन के तहत बहु-चैनल इनपुट के साथ आगे अनुकूलित होता है। इसके अलावा, अनुकरणीय DOA पीढ़ी योजना को पेश किया गया है ताकि मिलान वाले बहु-चैनल कॉर्पस पर निर्भरता कम हो सके। AliMeeting डेटासेट पर, SA-S2SND लगातार S2SND आधारभूत से बेहतर प्रदर्शन करता है, ऑफलाइन मोड में 7.4% की सापेक्ष DER कमी प्राप्त करता है, और चैनल ध्यान के साथ संयुक्त होने पर 19% से अधिक सुधार करता है। ये परिणाम दर्शाते हैं कि स्थानिक संकेत और क्रॉस-चैनल मॉडलिंग अत्यधिक पूरक हैं, ऑनलाइन और ऑफलाइन दोनों सेटिंग्स में अच्छा प्रदर्शन करते हैं।
वक्ता विभाजन का उद्देश्य "कौन कब बोल रहा है" प्रश्न का उत्तर देना है, जो डाउनस्ट्रीम कार्यों (जैसे भाषण पहचान) के लिए एक मौलिक पूर्व-प्रसंस्करण चरण है। इस क्षेत्र में महत्वपूर्ण प्रगति के बावजूद, बैठक परिदृश्यों में वक्ता विभाजन अभी भी चुनौतीपूर्ण है, मुख्य कारणों में शामिल हैं:
अतिव्यापी भाषण: कई वक्ता एक साथ बोलते हैं
अविश्वसनीय वक्ता एम्बेडिंग: शोरगुल वाले वातावरण में वक्ता विशेषता निष्कर्षण कठिन
प्रतिध्वनि: इनडोर वातावरण द्वारा कारित ध्वनिक विकृति
प्रारंभिक मॉड्यूलर दृष्टिकोण: ऑडियो को छोटे उच्चारणों में विभाजित करना और वक्ता एम्बेडिंग समानता के माध्यम से क्लस्टरिंग, यह मानते हुए कि प्रत्येक खंड में केवल एक वक्ता है, अतिव्यापी भाषण पर खराब प्रदर्शन करता है
अंत-से-अंत तंत्रिका विभाजन (EEND): हालांकि अतिव्यापी समस्या को हल करता है, फिर भी मुख्य रूप से ध्वनिक एम्बेडिंग पर निर्भर करता है
अनुक्रम-से-अनुक्रम विभाजन (S2SND): ऑनलाइन विभाजन में प्रगति, लेकिन स्पष्ट स्थानिक जानकारी की कमी
अधिकांश मौजूदा विधियां केवल ध्वनिक एम्बेडिंग पर निर्भर करती हैं, जो वास्तविक बैठकों में अक्सर अविश्वसनीय होती हैं। मुख्य प्रश्न है: बहु-चैनल रिकॉर्डिंग के स्थानिक संकेतों का उपयोग करके वक्ता विभाजन में सुधार कैसे किया जाए?
SA-S2SND ढांचा प्रस्तावित करना: DNN-व्युत्पन्न DOA को ऑनलाइन और ऑफलाइन वक्ता विभाजन के लिए S2SND में स्पष्ट स्थानिक इनपुट के रूप में एकीकृत करना
अनुकरणीय DOA विधि डिजाइन करना: स्थानिक संकेतों को सरणी डिजाइन से अलग करना, बड़े बहु-चैनल कॉर्पस की आवश्यकता के बिना स्थानिक जानकारी का प्रभावी ढंग से उपयोग करना
प्रभावशीलता सत्यापित करना: AliMeeting डेटासेट पर SA-S2SND को सत्यापित करना, दोनों मोड में S2SND आधारभूत के सापेक्ष सुसंगत DER सुधार दिखाना
दो-चरणीय प्रशिक्षण रणनीति: पहले एकल-चैनल ऑडियो के साथ प्रशिक्षण, फिर बहु-चैनल तक विस्तार, शुद्ध ध्वनिक से स्थानिक-संवर्धित मॉडलिंग तक एक सुसंगत पथ सुनिश्चित करना
वक्ता विभाजन कार्य का उद्देश्य बहु-वक्ता ऑडियो से प्रत्येक समय खंड के भीतर सक्रिय वक्ताओं की पहचान निर्धारित करना है। इनपुट बहु-चैनल ऑडियो सिग्नल है, आउटपुट प्रत्येक समय फ्रेम के लिए वक्ता गतिविधि लेबल और वक्ता प्रतिनिधित्व है।
मौजूदा कार्यों की तुलना में, यह पेपर पहली बार स्पष्ट DOA संकेतों को अनुक्रम-से-अनुक्रम वक्ता विभाजन ढांचे में प्रभावी ढंग से एकीकृत करता है, और बहु-चैनल कॉर्पस पर निर्भरता को कम करने के लिए एक अनुकरणीय रणनीति प्रस्तावित करता है।
पेपर ने 36 संबंधित संदर्भों का हवाला दिया है, जो वक्ता विभाजन, बहु-चैनल सिग्नल प्रसंस्करण, गहन शिक्षा आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह वक्ता विभाजन क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो स्थानिक जानकारी उपयोग के लिए एक नवीन विधि प्रस्तावित करता है। प्रायोगिक डिजाइन कठोर है, परिणाम विश्वसनीय हैं, और इसका उच्च व्यावहारिक मूल्य और शैक्षणिक प्रभाव है। मुख्य नवाचार स्पष्ट DOA संकेतों को अनुक्रम-से-अनुक्रम ढांचे में प्रभावी ढंग से एकीकृत करने और चतुर प्रशिक्षण रणनीति के माध्यम से बहु-चैनल डेटा की कमी समस्या को हल करने में निहित है।