2025-11-14T05:22:11.004755

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

Li, Cheng, Zhang et al.

This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.

academic

स्थानिक-संवर्धित अनुक्रम-से-अनुक्रम तंत्रिका वक्ता विभाजन बैठकों के लिए

मूल जानकारी

पेपर ID: 2510.09505
शीर्षक: Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
लेखक: Li Li, Ming Cheng, Hongyu Zhang, Juan Liu, Ming Li
वर्गीकरण: eess.AS (ऑडियो और भाषण प्रसंस्करण)
प्रकाशन समय: 25 अक्टूबर 10, 2025
पेपर लिंक: https://arxiv.org/abs/2510.09505v1

सारांश

यह पेपर एक स्थानिक-संवर्धित अनुक्रम-से-अनुक्रम तंत्रिका वक्ता विभाजन (SA-S2SND) ढांचा प्रस्तावित करता है, जो SRP-DNN द्वारा अनुमानित आगमन की दिशा (DOA) संकेतों को S2SND मुख्य नेटवर्क में एकीकृत करता है। दो-चरणीय प्रशिक्षण रणनीति अपनाई गई है: मॉडल पहले एकल-चैनल ऑडियो और DOA विशेषताओं के साथ प्रशिक्षित होता है, फिर DOA मार्गदर्शन के तहत बहु-चैनल इनपुट के साथ आगे अनुकूलित होता है। इसके अलावा, अनुकरणीय DOA पीढ़ी योजना को पेश किया गया है ताकि मिलान वाले बहु-चैनल कॉर्पस पर निर्भरता कम हो सके। AliMeeting डेटासेट पर, SA-S2SND लगातार S2SND आधारभूत से बेहतर प्रदर्शन करता है, ऑफलाइन मोड में 7.4% की सापेक्ष DER कमी प्राप्त करता है, और चैनल ध्यान के साथ संयुक्त होने पर 19% से अधिक सुधार करता है। ये परिणाम दर्शाते हैं कि स्थानिक संकेत और क्रॉस-चैनल मॉडलिंग अत्यधिक पूरक हैं, ऑनलाइन और ऑफलाइन दोनों सेटिंग्स में अच्छा प्रदर्शन करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

वक्ता विभाजन का उद्देश्य "कौन कब बोल रहा है" प्रश्न का उत्तर देना है, जो डाउनस्ट्रीम कार्यों (जैसे भाषण पहचान) के लिए एक मौलिक पूर्व-प्रसंस्करण चरण है। इस क्षेत्र में महत्वपूर्ण प्रगति के बावजूद, बैठक परिदृश्यों में वक्ता विभाजन अभी भी चुनौतीपूर्ण है, मुख्य कारणों में शामिल हैं:

अतिव्यापी भाषण: कई वक्ता एक साथ बोलते हैं
अविश्वसनीय वक्ता एम्बेडिंग: शोरगुल वाले वातावरण में वक्ता विशेषता निष्कर्षण कठिन
प्रतिध्वनि: इनडोर वातावरण द्वारा कारित ध्वनिक विकृति

मौजूदा विधियों की सीमाएं

प्रारंभिक मॉड्यूलर दृष्टिकोण: ऑडियो को छोटे उच्चारणों में विभाजित करना और वक्ता एम्बेडिंग समानता के माध्यम से क्लस्टरिंग, यह मानते हुए कि प्रत्येक खंड में केवल एक वक्ता है, अतिव्यापी भाषण पर खराब प्रदर्शन करता है
अंत-से-अंत तंत्रिका विभाजन (EEND): हालांकि अतिव्यापी समस्या को हल करता है, फिर भी मुख्य रूप से ध्वनिक एम्बेडिंग पर निर्भर करता है
अनुक्रम-से-अनुक्रम विभाजन (S2SND): ऑनलाइन विभाजन में प्रगति, लेकिन स्पष्ट स्थानिक जानकारी की कमी

अनुसंधान प्रेरणा

अधिकांश मौजूदा विधियां केवल ध्वनिक एम्बेडिंग पर निर्भर करती हैं, जो वास्तविक बैठकों में अक्सर अविश्वसनीय होती हैं। मुख्य प्रश्न है: बहु-चैनल रिकॉर्डिंग के स्थानिक संकेतों का उपयोग करके वक्ता विभाजन में सुधार कैसे किया जाए?

मूल योगदान

SA-S2SND ढांचा प्रस्तावित करना: DNN-व्युत्पन्न DOA को ऑनलाइन और ऑफलाइन वक्ता विभाजन के लिए S2SND में स्पष्ट स्थानिक इनपुट के रूप में एकीकृत करना
अनुकरणीय DOA विधि डिजाइन करना: स्थानिक संकेतों को सरणी डिजाइन से अलग करना, बड़े बहु-चैनल कॉर्पस की आवश्यकता के बिना स्थानिक जानकारी का प्रभावी ढंग से उपयोग करना
प्रभावशीलता सत्यापित करना: AliMeeting डेटासेट पर SA-S2SND को सत्यापित करना, दोनों मोड में S2SND आधारभूत के सापेक्ष सुसंगत DER सुधार दिखाना
दो-चरणीय प्रशिक्षण रणनीति: पहले एकल-चैनल ऑडियो के साथ प्रशिक्षण, फिर बहु-चैनल तक विस्तार, शुद्ध ध्वनिक से स्थानिक-संवर्धित मॉडलिंग तक एक सुसंगत पथ सुनिश्चित करना

विधि विवरण

कार्य परिभाषा

वक्ता विभाजन कार्य का उद्देश्य बहु-वक्ता ऑडियो से प्रत्येक समय खंड के भीतर सक्रिय वक्ताओं की पहचान निर्धारित करना है। इनपुट बहु-चैनल ऑडियो सिग्नल है, आउटपुट प्रत्येक समय फ्रेम के लिए वक्ता गतिविधि लेबल और वक्ता प्रतिनिधित्व है।

मॉडल आर्किटेक्चर

1. DOA अनुमान मॉड्यूल (SRP-DNN)

मजबूत बहु-स्रोत DOA अनुमान के लिए SRP-DNN अपनाया गया है:

मूल विचार: प्रत्यक्ष पथ चरण अंतर (DP-IPDs) सीखना, kवें स्रोत के लिए, DOA को इस प्रकार दर्शाया गया है: $\theta_k = [\theta_{ele}^k, \theta_{azi}^k]^T$

प्रशिक्षण उद्देश्य: भारित प्रत्यक्ष पथ IPD वेक्टर योग: $R_{mm'}(n) = \sum_{k=1}^K \beta_k(n) r_{mm'}(\theta_k(n))$

स्थानिक स्पेक्ट्रम निर्माण: $P'(\theta;n) = \frac{2}{M(M-1)F} \sum_{m=1}^{M-1} \sum_{m'=m+1}^M \Re\{R̂_{mm'}(n)^H r_{mm'}(\theta)\}$

बहु-स्रोत स्थानीयकरण: पुनरावृत्तिमूलक पहचान-हटाना (IDL) रणनीति बहु-वक्ता परिदृश्यों को संभालने के लिए अपनाई गई है।

2. SA-S2SND आर्किटेक्चर

S2SND मुख्य नेटवर्क पर आधारित, चार मूल मॉड्यूल शामिल हैं:

निष्कर्षक: ResNet + खंडित सांख्यिकीय पूलिंग (SSP)
एनकोडर: दीर्घ-श्रेणी निर्भरता मॉडलिंग के लिए Conformer
प्रतिनिधित्व डिकोडर: लक्ष्य एम्बेडिंग Ê उत्पन्न करना
पहचान डिकोडर: गतिविधि Ŷ की भविष्यवाणी करना

DOA एकीकरण विधि: $X = X + \text{Linear}_{R^A \rightarrow R^D}(\text{interpolate}(O))/\sqrt{D}$

जहां O ∈ R^{T''×A} DOA संभावना मैट्रिक्स है, निकटतम-पड़ोसी प्रक्षेप और रैखिक प्रक्षेपण के माध्यम से एनकोडर प्रतिनिधित्व में विलीन किया गया है।

तकनीकी नवाचार बिंदु

स्पष्ट स्थानिक संकेत इंजेक्शन: अंधे संलयन के विपरीत, दिशा साक्ष्य प्रदान करने के लिए सीधे DOA अनुमान का उपयोग करना
अनुकरणीय DOA रणनीति:
- वास्तविक बहु-चैनल भाषण + SRP-DNN द्वारा अनुमानित DOA
- अनुकरणीय बहु-चैनल भाषण + यादृच्छिक रूप से उत्पन्न छद्म DOA
दो-चरणीय प्रशिक्षण:
- भाग A: एकल-चैनल मॉडल + बहु-चैनल DOA (चरण 1-3)
- भाग B: बहु-चैनल मॉडल + बहु-चैनल DOA (चरण 4-5)

प्रायोगिक सेटअप

डेटासेट

अनुकरणीय डेटा: VoxCeleb2 (1M उच्चारण, 6,112 वक्ता) ऑनलाइन मिश्रण पीढ़ी के लिए
वास्तविक डेटा: AliMeeting (प्रशिक्षण सेट 104.75h, मूल्यांकन सेट 4h, परीक्षण सेट 10h)
- 8-चैनल दूरस्थ क्षेत्र सरणी और सिर-पहने रिकॉर्डिंग
- NARA-WPE विमुक्तिकरण के बाद दूरस्थ क्षेत्र सरणी सिग्नल का उपयोग

मूल्यांकन मेट्रिक्स

DER (वक्ता विभाजन त्रुटि दर): Oracle VAD और सहिष्णुता का उपयोग नहीं करते हुए
1-2 वक्ता और 2+ वक्ता परिदृश्यों में अलग से प्रदर्शन रिपोर्ट करना
ऑनलाइन और ऑफलाइन मोड में प्रदर्शन तुलना

तुलना विधियां

S2SND आधारभूत (एकल-चैनल और बहु-चैनल संस्करण)
BUT System (अत्याधुनिक तकनीक)
विभिन्न मॉडल आकार: Small (16.56M पैरामीटर) और Medium (45.96M पैरामीटर)

कार्यान्वयन विवरण

ऑडियो प्रसंस्करण: 8s विंडो, 2s ओवरलैप, 80-आयामी log-Mel फ़िल्टर बैंक
प्रशिक्षण: AdamW अनुकूलक, BCE + ArcFace हानि
अनुमान: ब्लॉक-स्तरीय स्लाइडिंग विंडो, 0.8s ऑनलाइन विलंबता
हार्डवेयर: दो RTX-A6000 GPU

प्रायोगिक परिणाम

मुख्य परिणाम

मॉडल	चैनल	DOA	कुल DER (ऑनलाइन%)	कुल DER (ऑफलाइन%)
S2SND	1	✗	16.03	13.59
SA-S2SND	1	✓	15.35	12.59
S2SND	8	✗	14.85	12.79
SA-S2SND	8	✓	12.93	10.84

मुख्य निष्कर्ष

सुसंगत सुधार: DOA जोड़ना सभी कॉन्फ़िगरेशन में सुधार लाता है
- एकल-चैनल: ऑनलाइन 4.2%↓, ऑफलाइन 7.4%↓
- बहु-चैनल: ऑनलाइन 12.9%↓, ऑफलाइन 15.2%↓
बहु-वक्ता परिदृश्य लाभ: 2+ वक्ता परिदृश्यों में अधिक महत्वपूर्ण सुधार, जटिल संवाद स्थितियों में मजबूतता दिखाता है
पूरकता: चैनल ध्यान और DOA अत्यधिक पूरक हैं
- चैनल ध्यान सहसंबंध को कैप्चर करता है
- DOA स्पष्ट स्थानिक संकेत प्रदान करता है
पैरामीटर दक्षता: सर्वोत्तम मॉडल (E4) आधारभूत (E1) की तुलना में 19.3%/20.3% की सापेक्ष लाभ प्राप्त करता है, साथ ही SOTA के समान पैरामीटर मात्रा

DOA विश्लेषण

AliMeeting प्रशिक्षण सेट में, केवल 5.98% अवधि दो से अधिक एक साथ बोलने वाले वक्ताओं को शामिल करती है
अनुकरणीय डेटा नगण्य DOA त्रुटि दिखाता है
वास्तविक बैठक डेटा में, अज़ीमुथ अनुमान विभिन्न वक्ताओं के लिए स्पष्ट भेदभाव प्रदान करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

स्थानिक संकेत प्रभावशीलता: DOA संकेत वक्ता विभाजन प्रदर्शन में महत्वपूर्ण सुधार करते हैं
पूरकता: स्थानिक जानकारी और क्रॉस-चैनल मॉडलिंग अत्यधिक पूरक हैं
व्यावहारिकता: ऑनलाइन और ऑफलाइन दोनों सेटिंग्स में अच्छा प्रदर्शन
सामान्यीकरण क्षमता: अनुकरणीय DOA रणनीति विशिष्ट सरणी कॉन्फ़िगरेशन पर निर्भरता को कम करती है

सीमाएं

विधि सीमाएं: SRP-DNN की IDL रणनीति की दो-वक्ता सीमा
सरणी निर्भरता: विभिन्न सरणी कॉन्फ़िगरेशन के अनुकूल होने के लिए SRP-DNN को फिर से प्रशिक्षित करने की आवश्यकता
कम्प्यूटेशनल जटिलता: DOA अनुमान की कम्प्यूटेशनल ओवरहेड जोड़ता है

भविष्य की दिशाएं

बहु-वक्ता DOA मजबूतता: दो से अधिक एक साथ बोलने वाले वक्ताओं को संभालने में सुधार
संयुक्त प्रशिक्षण रणनीति: DOA अनुमान और वक्ता विभाजन के अंत-से-अंत प्रशिक्षण की खोज
सिस्टम प्रदर्शन सुधार: समग्र सिस्टम प्रदर्शन को आगे अनुकूलित करना

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार:
- पहली बार स्पष्ट DOA संकेतों को S2SND ढांचे में प्रभावी ढंग से एकीकृत करना
- अनुकरणीय DOA रणनीति प्रस्तावित करना, बहु-चैनल डेटा की कमी समस्या को हल करना
- दो-चरणीय प्रशिक्षण रणनीति डिजाइन तर्कसंगत है
व्यापक प्रयोग:
- मानक डेटासेट पर व्यापक मूल्यांकन
- विस्तृत ablation प्रयोग और विश्लेषण प्रदान करना
- SOTA विधियों के साथ निष्पक्ष तुलना
ठोस तकनीक:
- DOA एकीकरण विधि स्थिति एन्कोडिंग के समान, डिजाइन चतुर है
- बहु-चैनल सरणी अनुकूलन समस्या को संभाला गया है
- ऑनलाइन और ऑफलाइन दोनों आवेदन परिदृश्यों का समर्थन करता है
उच्च व्यावहारिक मूल्य:
- महत्वपूर्ण प्रदर्शन सुधार (अधिकतम 19%+ सापेक्ष सुधार)
- अच्छी पैरामीटर दक्षता
- विभिन्न सरणी कॉन्फ़िगरेशन तक विस्तारित किया जा सकता है

कमजोरियां

विधि सीमाएं:
- SRP-DNN की दो-वक्ता सीमा पर निर्भरता
- विभिन्न सरणियों के लिए DOA मॉड्यूल को फिर से प्रशिक्षित करने की आवश्यकता
- अनुकरणीय DOA की वास्तविकता सत्यापन की आवश्यकता
प्रायोगिक सीमा:
- केवल AliMeeting डेटासेट पर सत्यापन
- विभिन्न ध्वनिक स्थितियों में मजबूतता विश्लेषण की कमी
- कम्प्यूटेशनल जटिलता विश्लेषण प्रदान नहीं किया गया
अपर्याप्त सैद्धांतिक विश्लेषण:
- DOA संकेत प्रभावी क्यों हैं इसका सैद्धांतिक स्पष्टीकरण की कमी
- विभिन्न शोर और प्रतिध्वनि स्थितियों में प्रदर्शन विश्लेषण नहीं

प्रभाव

शैक्षणिक योगदान: वक्ता विभाजन क्षेत्र में स्थानिक जानकारी उपयोग के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: बैठक प्रतिलेखन प्रणालियों में सीधे लागू किया जा सकता है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन में सहायता करता है

लागू परिदृश्य

बैठक प्रतिलेखन: बहु-व्यक्ति बैठकों का वास्तविक समय और ऑफलाइन वक्ता विभाजन
बुद्धिमान बैठक प्रणाली: भाषण पहचान के साथ संयुक्त अंत-से-अंत बैठक समझ
बहु-चैनल भाषण प्रसंस्करण: स्थानिक जानकारी का उपयोग करने की आवश्यकता वाले किसी भी भाषण विभाजन कार्य

संदर्भ

पेपर ने 36 संबंधित संदर्भों का हवाला दिया है, जो वक्ता विभाजन, बहु-चैनल सिग्नल प्रसंस्करण, गहन शिक्षा आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह वक्ता विभाजन क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो स्थानिक जानकारी उपयोग के लिए एक नवीन विधि प्रस्तावित करता है। प्रायोगिक डिजाइन कठोर है, परिणाम विश्वसनीय हैं, और इसका उच्च व्यावहारिक मूल्य और शैक्षणिक प्रभाव है। मुख्य नवाचार स्पष्ट DOA संकेतों को अनुक्रम-से-अनुक्रम ढांचे में प्रभावी ढंग से एकीकृत करने और चतुर प्रशिक्षण रणनीति के माध्यम से बहु-चैनल डेटा की कमी समस्या को हल करने में निहित है।

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

स्थानिक-संवर्धित अनुक्रम-से-अनुक्रम तंत्रिका वक्ता विभाजन बैठकों के लिए

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

मौजूदा विधियों की सीमाएं

अनुसंधान प्रेरणा

मूल योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

1. DOA अनुमान मॉड्यूल (SRP-DNN)

2. SA-S2SND आर्किटेक्चर

तकनीकी नवाचार बिंदु

प्रायोगिक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलना विधियां

कार्यान्वयन विवरण

प्रायोगिक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

DOA विश्लेषण

संबंधित कार्य

वक्ता विभाजन विकास पथ

बहु-चैनल प्रसंस्करण विधियां

इस पेपर के लाभ

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमजोरियां

प्रभाव

लागू परिदृश्य

संदर्भ