2025-11-14T05:22:11.004755

Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings

Li, Cheng, Zhang et al.

This paper proposes a Spatially-Augmented Sequence-to-Sequence Neural Diarization (SA-S2SND) framework, which integrates direction-of-arrival (DOA) cues estimated by SRP-DNN into the S2SND backbone. A two-stage training strategy is adopted: the model is first trained with single-channel audio and DOA features, and then further optimized with multi-channel inputs under DOA guidance. In addition, a simulated DOA generation scheme is introduced to alleviate dependence on matched multi-channel corpora. On the AliMeeting dataset, SA-S2SND consistently outperform the S2SND baseline, achieving a 7.4% relative DER reduction in the offline mode and over 19% improvement when combined with channel attention. These results demonstrate that spatial cues are highly complementary to cross-channel modeling, yielding good performance in both online and offline settings.

academic

تحديد المتحدثين المعزز مكانياً باستخدام الشبكات العصبية من نوع Sequence-to-Sequence للاجتماعات

المعلومات الأساسية

معرّف الورقة: 2510.09505
العنوان: Spatially-Augmented Sequence-to-Sequence Neural Diarization for Meetings
المؤلفون: Li Li, Ming Cheng, Hongyu Zhang, Juan Liu, Ming Li
التصنيف: eess.AS (معالجة الصوت والكلام)
تاريخ النشر: 10 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.09505v1

الملخص

تقترح هذه الورقة إطار عمل معزز مكانياً من نوع Sequence-to-Sequence لتحديد المتحدثين (SA-S2SND)، والذي يدمج مؤشرات اتجاه الوصول (DOA) المقدرة من خلال SRP-DNN في شبكة العمود الفقري S2SND. يتم اعتماد استراتيجية تدريب ثنائية المراحل: يتم تدريب النموذج أولاً باستخدام الصوت أحادي القناة وميزات DOA، ثم يتم تحسينه بشكل إضافي باستخدام مدخلات متعددة القنوات تحت إرشادات DOA. علاوة على ذلك، يتم إدخال مخطط محاكاة DOA لتقليل الاعتماد على مجموعات البيانات متعددة القنوات المتطابقة. على مجموعة بيانات AliMeeting، يتفوق SA-S2SND باستمرار على خط الأساس S2SND، محققاً تقليلاً نسبياً بنسبة 7.4% في معدل خطأ تحديد المتحدثين (DER) في الوضع غير المتصل، مع تحسن يتجاوز 19% عند دمجه مع آلية الانتباه عبر القنوات. تشير هذه النتائج إلى أن المؤشرات المكانية والنمذجة عبر القنوات متكاملة بشكل كبير، مما ينتج عنه أداء جيدة في كل من الإعدادات المتصلة وغير المتصلة.

الخلفية البحثية والدافع

المشكلة الأساسية

يهدف تحديد المتحدثين إلى الإجابة على السؤال "من يتحدث وفي أي وقت"، وهو خطوة معالجة مسبقة أساسية للمهام اللاحقة (مثل التعرف على الكلام). على الرغم من التقدم الملحوظ في هذا المجال، فإن تحديد المتحدثين في سيناريوهات الاجتماعات لا يزال يشكل تحدياً، والأسباب الرئيسية تشمل:

الكلام المتداخل: تحدث عدة متحدثين في نفس الوقت
تضمينات المتحدثين غير الموثوقة: صعوبة استخراج ميزات المتحدث في البيئات الصاخبة
الصدى: التشويه الصوتي الناجم عن البيئات الداخلية

قيود الطرق الموجودة

الطرق المعيارية المبكرة: تقسيم الصوت إلى عبارات قصيرة والتجميع من خلال تشابه تضمينات المتحدث، مع افتراض أن كل جزء يحتوي على متحدث واحد فقط، مما يؤدي إلى أداء سيئة على الكلام المتداخل
الفصل العصبي من طرف إلى طرف (EEND): على الرغم من حل مشكلة التداخل، إلا أنه لا يزال يعتمد بشكل أساسي على التضمينات الصوتية
فصل Sequence-to-Sequence (S2SND): إحراز تقدم في الفصل المتصل، لكنه يفتقد المعلومات المكانية الصريحة

دافع البحث

تعتمد معظم الطرق الموجودة فقط على التضمينات الصوتية، والتي غالباً ما تكون غير موثوقة في الاجتماعات الحقيقية. السؤال الرئيسي هو: كيفية الاستفادة من المؤشرات المكانية للتسجيلات متعددة القنوات لتحسين تحديد المتحدثين؟

المساهمات الأساسية

اقتراح إطار عمل SA-S2SND: دمج DOA المشتق من الشبكات العصبية العميقة كمدخل مكاني صريح في S2SND، لتحديد المتحدثين المتصل وغير المتصل
تصميم طريقة محاكاة DOA: فصل المؤشرات المكانية عن تصميم المصفوفة، مما يتيح الاستفادة الفعالة من المعلومات المكانية دون الحاجة إلى مجموعات بيانات كبيرة متعددة القنوات
التحقق من الفعالية: التحقق من SA-S2SND على مجموعة بيانات AliMeeting، مع إظهار تحسن DER متسق مقابل خط الأساس S2SND في كلا الوضعين
استراتيجية تدريب ثنائية المراحل: التدريب أولاً باستخدام الصوت أحادي القناة، ثم التوسع إلى متعدد القنوات، مما يضمن مسار متسق من النمذجة الصوتية البحتة إلى النمذجة المعززة مكانياً

شرح الطريقة

تعريف المهمة

الهدف من مهمة تحديد المتحدثين هو تحديد هوية المتحدثين النشطين في كل جزء زمني من الصوت متعدد المتحدثين. المدخل هو إشارة صوتية متعددة القنوات، والمخرج هو تسميات نشاط المتحدث وتمثيل المتحدث لكل إطار زمني.

معمارية النموذج

1. وحدة تقدير DOA (SRP-DNN)

استخدام SRP-DNN لتقدير DOA قوي متعدد المصادر:

الفكرة الأساسية: تعلم فرق الطور للمسار المباشر (DP-IPDs)، بالنسبة للمصدر k، يتم تمثيل DOA كـ: $\theta_k = [\theta_{ele}^k, \theta_{azi}^k]^T$

هدف التدريب: مجموع متجه IPD المسار المباشر المرجح: $R_{mm'}(n) = \sum_{k=1}^K \beta_k(n) r_{mm'}(\theta_k(n))$

بناء الطيف المكاني: $P'(\theta;n) = \frac{2}{M(M-1)F} \sum_{m=1}^{M-1} \sum_{m'=m+1}^M \Re\{R̂_{mm'}(n)^H r_{mm'}(\theta)\}$

تحديد موقع متعدد المصادر: استخدام استراتيجية الكشف والإزالة التكرارية (IDL) للتعامل مع سيناريوهات متعددة المتحدثين.

2. معمارية SA-S2SND

بناءً على شبكة العمود الفقري S2SND، تتضمن أربع وحدات أساسية:

المستخرج: ResNet + تجميع الإحصائيات المقسمة (SSP)
المشفر: Conformer لنمذجة التبعيات طويلة المدى
فك تشفير التمثيل: إنشاء التضمينات المستهدفة Ê
فك تشفير الكشف: التنبؤ بالنشاط Ŷ

طريقة دمج DOA: $X = X + \text{Linear}_{R^A \rightarrow R^D}(\text{interpolate}(O))/\sqrt{D}$

حيث O ∈ R^{T''×A} هي مصفوفة احتمالية DOA، يتم دمجها في تمثيل المشفر من خلال الاستيفاء بأقرب جار والإسقاط الخطي.

نقاط الابتكار التقني

حقن المؤشرات المكانية الصريحة: بخلاف الدمج الأعمى، استخدام مباشر لتقدير DOA لتوفير دليل الاتجاه
استراتيجية محاكاة DOA:
- الكلام متعدد القنوات الحقيقي + DOA المقدر من SRP-DNN
- الكلام متعدد القنوات المحاكى + DOA الزائف المولد عشوائياً
التدريب ثنائي المراحل:
- الجزء A: نموذج أحادي القناة + DOA متعدد القنوات (المراحل 1-3)
- الجزء B: نموذج متعدد القنوات + DOA متعدد القنوات (المراحل 4-5)

إعداد التجارب

مجموعات البيانات

البيانات المحاكاة: VoxCeleb2 (1M عبارة، 6,112 متحدث) للمزج المتصل
البيانات الحقيقية: AliMeeting (مجموعة التدريب 104.75h، مجموعة التقييم 4h، مجموعة الاختبار 10h)
- مصفوفة بعيدة المدى بـ 8 قنوات وتسجيل الرأس
- استخدام إشارات المصفوفة البعيدة المدى بعد إزالة الصدى باستخدام NARA-WPE

مؤشرات التقييم

معدل خطأ تحديد المتحدثين (DER): بدون VAD Oracle وبدون تسامح
الإبلاغ عن الأداء بشكل منفصل لسيناريوهات 1-2 متحدث و2+ متحدث
مقارنة الأداء في الأوضاع المتصلة وغير المتصلة

طرق المقارنة

خط الأساس S2SND (الإصدارات أحادية وثنائية القناة)
نظام BUT (أحدث ما توصلت إليه التكنولوجيا)
أحجام نماذج مختلفة: صغير (16.56M معامل) ومتوسط (45.96M معامل)

تفاصيل التنفيذ

معالجة الصوت: نافذة 8s، تداخل 2s، مصفوفة فلاتر log-Mel بـ 80 بُعد
التدريب: محسّن AdamW، خسارة BCE + ArcFace
الاستدلال: نافذة منزلقة على مستوى الكتلة، تأخير متصل 0.8s
الأجهزة: وحدتا معالجة رسومات RTX-A6000

نتائج التجارب

النتائج الرئيسية

النموذج	عدد القنوات	DOA	إجمالي DER (متصل%)	إجمالي DER (غير متصل%)
S2SND	1	✗	16.03	13.59
SA-S2SND	1	✓	15.35	12.59
S2SND	8	✗	14.85	12.79
SA-S2SND	8	✓	12.93	10.84

النتائج الرئيسية

التحسن المتسق: إضافة DOA تحقق تحسناً في جميع الإعدادات
- أحادي القناة: متصل 4.2%↓، غير متصل 7.4%↓
- متعدد القنوات: متصل 12.9%↓، غير متصل 15.2%↓
المزايا في سيناريوهات متعددة المتحدثين: التحسن أكثر وضوحاً في سيناريوهات 2+ متحدث، مما يدل على الاستقرار في ظروف الحوار المعقدة
التكامل: آلية الانتباه عبر القنوات و DOA متكاملة بشكل كبير
- آلية الانتباه عبر القنوات تلتقط الارتباطات
- DOA توفر مؤشرات مكانية صريحة
كفاءة المعاملات: أفضل نموذج (E4) يحقق مكاسب نسبية بنسبة 19.3%/20.3% مقابل خط الأساس (E1)، مع عدد معاملات مماثل لـ SOTA

تحليل DOA

في مجموعة بيانات تدريب AliMeeting، فقط 5.98% من المدة تتضمن أكثر من متحدثين متزامنين
تظهر البيانات المحاكاة أخطاء DOA مهملة
في بيانات الاجتماعات الحقيقية، يوفر تقدير السمت تمييزاً واضحاً لمتحدثين مختلفين

الأعمال ذات الصلة

تطور تحديد المتحدثين

الطرق المعيارية: الطرق التقليدية القائمة على التجميع
الفصل العصبي من طرف إلى طرف (EEND): مهمة التنبؤ بتسميات متعددة
كشف نشاط الكلام للمتحدث المستهدف (TSVAD): الجمع بين الطرق المعيارية والعصبية
فصل Sequence-to-Sequence (S2SND): يدعم الفصل المتصل

طرق معالجة متعددة القنوات

تحسين الكلام: تشكيل الشعاع وغيره، لكن قد يؤدي إلى تشويه
دمج القنوات: وحدات الانتباه لتجميع الإشارات، لكنها عادة ما تكون دمجاً أعمى
الميزات الصريحة: تقدير DOA وغيره، توفير دليل اتجاه مباشر

مزايا هذه الورقة

بالمقارنة مع الأعمال الموجودة، تقوم هذه الورقة بدمج مؤشرات DOA الصريحة بشكل فعال في إطار عمل Sequence-to-Sequence لتحديد المتحدثين لأول مرة، وتقترح استراتيجية محاكاة لتقليل الاعتماد على مجموعات البيانات متعددة القنوات.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

فعالية المؤشرات المكانية: مؤشرات DOA تحسن بشكل كبير من أداء تحديد المتحدثين
التكامل: المعلومات المكانية والنمذجة عبر القنوات متكاملة بشكل كبير
الجدوى العملية: تظهر أداء جيدة في الإعدادات المتصلة وغير المتصلة
القدرة على التعميم: تقلل استراتيجية محاكاة DOA الاعتماد على تكوينات المصفوفة المحددة

القيود

قيود متعددة المتحدثين: استراتيجية IDL في SRP-DNN تتتبع متحدثين اثنين على الأكثر
الاعتماد على المصفوفة: تحتاج إلى إعادة تدريب SRP-DNN للتكيف مع تكوينات مصفوفة مختلفة
التعقيد الحسابي: يضيف عبء حسابي لتقدير DOA

الاتجاهات المستقبلية

استقرار DOA متعدد المتحدثين: تحسين معالجة أكثر من متحدثين متزامنين
استراتيجيات التدريب المشترك: استكشاف التدريب من طرف إلى طرف لتقدير DOA وتحديد المتحدثين
تحسين أداء النظام: تحسين إضافي لأداء النظام الكلية

التقييم المتعمق

المزايا

الابتكار القوي:
- دمج فعال لمؤشرات DOA الصريحة في إطار عمل S2SND لأول مرة
- اقتراح استراتيجية محاكاة DOA لحل مشكلة ندرة البيانات متعددة القنوات
- تصميم معقول لاستراتيجية التدريب ثنائي المراحل
التجارب الشاملة:
- تقييم شامل على مجموعات بيانات قياسية
- توفير تجارب استئصالية وتحليلات تفصيلية
- مقارنة عادلة مع طرق SOTA
التقنية الصلبة:
- طريقة دمج DOA ذكية تشبه ترميز الموضع
- معالجة مشكلة التكيف مع مصفوفات متعددة القنوات
- دعم كل من السيناريوهات المتصلة وغير المتصلة
القيمة العملية العالية:
- تحسن أداء كبير (تحسن نسبي يصل إلى 19%+)
- كفاءة معاملات جيدة
- قابلة للتوسع إلى تكوينات مصفوفة مختلفة

أوجه القصور

قيود الطريقة:
- الاعتماد على قيد متحدثين اثنين في SRP-DNN
- الحاجة إلى إعادة تدريب وحدة DOA لمصفوفات مختلفة
- الحاجة إلى التحقق من واقعية محاكاة DOA
نطاق التجارب:
- التحقق فقط على مجموعة بيانات AliMeeting
- نقص تحليل الاستقرار في ظروف صوتية مختلفة
- عدم توفير تحليل التعقيد الحسابي
نقص التحليل النظري:
- نقص التفسير النظري لسبب فعالية مؤشرات DOA
- عدم تحليل الأداء في ظروف الضوضاء والصدى المختلفة

التأثير

المساهمة الأكاديمية: توفير طريقة جديدة لاستخدام المعلومات المكانية في مجال تحديد المتحدثين
القيمة العملية: يمكن تطبيقها مباشرة على أنظمة نسخ الاجتماعات
قابلية التكرار: توفير تفاصيل تنفيذ مفصلة تسهل التكرار

السيناريوهات المناسبة

نسخ الاجتماعات: تحديد المتحدثين المتصل وغير المتصل في الاجتماعات متعددة الأشخاص
أنظمة الاجتماعات الذكية: فهم الاجتماعات من طرف إلى طرف مع التعرف على الكلام
معالجة الكلام متعددة القنوات: أي مهمة فصل كلام تتطلب الاستفادة من المعلومات المكانية

المراجع

تستشهد الورقة بـ 36 مرجعاً ذا صلة، تغطي المجالات الرئيسية لتحديد المتحدثين ومعالجة الإشارات متعددة القنوات والتعلم العميق، مما يوفر أساساً نظرياً متيناً للبحث.

التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تقترح طريقة ابتكارية لاستخدام المعلومات المكانية في مجال تحديد المتحدثين. يتميز التصميم التجريبي بالدقة والنتائج مقنعة، مع قيمة عملية وتأثير أكاديمي جيد. يكمن الابتكار الرئيسي في دمج فعال لمؤشرات DOA الصريحة في إطار عمل Sequence-to-Sequence، وحل ذكي لمشكلة ندرة البيانات متعددة القنوات من خلال استراتيجية تدريب معقولة.