Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
Li, Cheng, Zhang et al.
This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.
academic
تحديد المتحدثين المعزز مكانياً باستخدام الشبكات العصبية من نوع Sequence-to-Sequence للاجتماعات
تقترح هذه الورقة إطار عمل معزز مكانياً من نوع Sequence-to-Sequence لتحديد المتحدثين (SA-S2SND)، والذي يدمج مؤشرات اتجاه الوصول (DOA) المقدرة من خلال SRP-DNN في شبكة العمود الفقري S2SND. يتم اعتماد استراتيجية تدريب ثنائية المراحل: يتم تدريب النموذج أولاً باستخدام الصوت أحادي القناة وميزات DOA، ثم يتم تحسينه بشكل إضافي باستخدام مدخلات متعددة القنوات تحت إرشادات DOA. علاوة على ذلك، يتم إدخال مخطط محاكاة DOA لتقليل الاعتماد على مجموعات البيانات متعددة القنوات المتطابقة. على مجموعة بيانات AliMeeting، يتفوق SA-S2SND باستمرار على خط الأساس S2SND، محققاً تقليلاً نسبياً بنسبة 7.4% في معدل خطأ تحديد المتحدثين (DER) في الوضع غير المتصل، مع تحسن يتجاوز 19% عند دمجه مع آلية الانتباه عبر القنوات. تشير هذه النتائج إلى أن المؤشرات المكانية والنمذجة عبر القنوات متكاملة بشكل كبير، مما ينتج عنه أداء جيدة في كل من الإعدادات المتصلة وغير المتصلة.
يهدف تحديد المتحدثين إلى الإجابة على السؤال "من يتحدث وفي أي وقت"، وهو خطوة معالجة مسبقة أساسية للمهام اللاحقة (مثل التعرف على الكلام). على الرغم من التقدم الملحوظ في هذا المجال، فإن تحديد المتحدثين في سيناريوهات الاجتماعات لا يزال يشكل تحدياً، والأسباب الرئيسية تشمل:
الكلام المتداخل: تحدث عدة متحدثين في نفس الوقت
تضمينات المتحدثين غير الموثوقة: صعوبة استخراج ميزات المتحدث في البيئات الصاخبة
الطرق المعيارية المبكرة: تقسيم الصوت إلى عبارات قصيرة والتجميع من خلال تشابه تضمينات المتحدث، مع افتراض أن كل جزء يحتوي على متحدث واحد فقط، مما يؤدي إلى أداء سيئة على الكلام المتداخل
الفصل العصبي من طرف إلى طرف (EEND): على الرغم من حل مشكلة التداخل، إلا أنه لا يزال يعتمد بشكل أساسي على التضمينات الصوتية
فصل Sequence-to-Sequence (S2SND): إحراز تقدم في الفصل المتصل، لكنه يفتقد المعلومات المكانية الصريحة
تعتمد معظم الطرق الموجودة فقط على التضمينات الصوتية، والتي غالباً ما تكون غير موثوقة في الاجتماعات الحقيقية. السؤال الرئيسي هو: كيفية الاستفادة من المؤشرات المكانية للتسجيلات متعددة القنوات لتحسين تحديد المتحدثين؟
اقتراح إطار عمل SA-S2SND: دمج DOA المشتق من الشبكات العصبية العميقة كمدخل مكاني صريح في S2SND، لتحديد المتحدثين المتصل وغير المتصل
تصميم طريقة محاكاة DOA: فصل المؤشرات المكانية عن تصميم المصفوفة، مما يتيح الاستفادة الفعالة من المعلومات المكانية دون الحاجة إلى مجموعات بيانات كبيرة متعددة القنوات
التحقق من الفعالية: التحقق من SA-S2SND على مجموعة بيانات AliMeeting، مع إظهار تحسن DER متسق مقابل خط الأساس S2SND في كلا الوضعين
استراتيجية تدريب ثنائية المراحل: التدريب أولاً باستخدام الصوت أحادي القناة، ثم التوسع إلى متعدد القنوات، مما يضمن مسار متسق من النمذجة الصوتية البحتة إلى النمذجة المعززة مكانياً
الهدف من مهمة تحديد المتحدثين هو تحديد هوية المتحدثين النشطين في كل جزء زمني من الصوت متعدد المتحدثين. المدخل هو إشارة صوتية متعددة القنوات، والمخرج هو تسميات نشاط المتحدث وتمثيل المتحدث لكل إطار زمني.
بالمقارنة مع الأعمال الموجودة، تقوم هذه الورقة بدمج مؤشرات DOA الصريحة بشكل فعال في إطار عمل Sequence-to-Sequence لتحديد المتحدثين لأول مرة، وتقترح استراتيجية محاكاة لتقليل الاعتماد على مجموعات البيانات متعددة القنوات.
تستشهد الورقة بـ 36 مرجعاً ذا صلة، تغطي المجالات الرئيسية لتحديد المتحدثين ومعالجة الإشارات متعددة القنوات والتعلم العميق، مما يوفر أساساً نظرياً متيناً للبحث.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة ابتكارية لاستخدام المعلومات المكانية في مجال تحديد المتحدثين. يتميز التصميم التجريبي بالدقة والنتائج مقنعة، مع قيمة عملية وتأثير أكاديمي جيد. يكمن الابتكار الرئيسي في دمج فعال لمؤشرات DOA الصريحة في إطار عمل Sequence-to-Sequence، وحل ذكي لمشكلة ندرة البيانات متعددة القنوات من خلال استراتيجية تدريب معقولة.