2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman

We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.

academic

VoiceVector: متجهات التسجيل متعددة الأنماط لفصل المتحدثين

المعلومات الأساسية

معرّف الورقة: 2501.01401
العنوان: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
المؤلفون: أكام رحيمي، تريانتافيلوس أفوراس، أندرو زيسرمان (مجموعة VGG بجامعة أكسفورد)
التصنيف: eess.AS (الهندسة الكهربائية وعلوم الأنظمة - معالجة الصوت والكلام)
تاريخ النشر: 2 يناير 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2501.01401

الملخص

تقترح هذه الورقة معمارية قائمة على محول (Transformer) لفصل صوت المتحدث المستهدف من بين عدة متحدثين والضوضاء البيئية. تستخدم الطريقة شبكتي عصبيتين مستقلتين: (أ) شبكة تسجيل تستفيد من مجموعات متنوعة من الأنماط الصوتية والبصرية لإنشاء متجهات تضمين خاصة بالمتحدث؛ (ب) شبكة فصل تقبل الإشارة المشوشة ومتجهات التسجيل كمدخلات وتنتج إشارة نظيفة للمتحدث المستهدف. تشمل نقاط الابتكار الرئيسية: (i) يمكن إنشاء متجهات التسجيل من بيانات صوتية فقط أو صوتية-بصرية (باستخدام حركة الشفاه) أو بيانات بصرية فقط (باستخدام حركة الشفاه من الفيديو الصامت)؛ (ii) المرونة في استخدام متجهات تسجيل موجبة وسالبة متعددة أثناء عملية الفصل.

خلفية البحث والدافع

تعريف المشكلة

يعتبر فصل الكلام تحديًا أساسيًا في معالجة الصوت، خاصة في البيئات الصاخبة وسيناريوهات المتحدثين المتعددين. تعتمد التطبيقات الموجودة مثل أجهزة السمع والأنظمة المنشطة بالصوت ومؤتمرات الفيديو بشكل كبير على أداء فصل الكلام.

قيود الطرق الموجودة

الطرق القائمة على التضمين الصوتي: تعتمد طرق مثل VoiceFilter على صوت نظيف وخالٍ من الضوضاء لإنشاء تضمينات المتحدث، وهو أمر يصعب الحصول عليه في بيئات الضوضاء العملية.
الطرق الصوتية-البصرية: بينما تستفيد طرق مثل Looking to Listen و VoiceFormer من الإشارات البصرية (حركة الشفاه)، إلا أنها تتطلب الحصول المستمر على المعلومات البصرية أثناء عملية الفصل، وتنخفض الأداء عند حجب أو فقدان البيانات البصرية.

دافع البحث

تهدف هذه الورقة إلى الجمع بين مزايا طرق التكييف الصوتي والبصري مع تجنب التحديات الكامنة في كل منهما. من خلال تصميم ثنائي المرحلة: يمكن لمرحلة التسجيل الاستفادة من المعلومات متعددة الأنماط لإنشاء تمثيل متحدث قوي، بينما تعتمد مرحلة الفصل فقط على بيانات الصوت، مما يحسن الكفاءة الحسابية والقوة تجاه التغييرات في المعلومات البصرية.

المساهمات الأساسية

شبكة التسجيل متعددة الأنماط: تقترح شبكة تضمين متحدث قادرة على معالجة المدخلات الصوتية والصوتية-البصرية والبصرية البحتة، مع دعم مبتكر لإنشاء متجهات التسجيل من الفيديو الصامت فقط.
التكييف بالعينات الموجبة والسالبة: تقدم آلية تعلم متناقضة تستخدم متجهات تسجيل موجبة (المتحدث المستهدف) وسالبة (المتحدثون غير المستهدفين) في نفس الوقت.
مزايا المعمارية ثنائية المرحلة: مرحلة الفصل لا تعتمد بالكامل على المعلومات البصرية، مما يحل قيود الطرق الصوتية-البصرية التقليدية عند فقدان المعلومات البصرية.
تحسن الأداء: حققت أداءً متفوقًا على الطرق الموجودة على مجموعات بيانات LRS3 و LibriSpeech.

شرح الطريقة

تعريف المهمة

بالنظر إلى إشارة صوتية مختلطة تحتوي على المتحدث المستهدف والمتحدثين الآخرين والضوضاء البيئية، الهدف هو فصل مكون الكلام للمتحدث المستهدف ذي الخصائص الصوتية المحددة، مع تصفية الأصوات المتنافسة والضوضاء البيئية.

معمارية النموذج

1. شبكة تسجيل المتحدث

الشبكة الصوتية البحتة (الشكل 1أ):

استخدام نموذج ECAPA-TDNN المدرب مسبقًا كمستخرج لميزات المتحدث
المدخل: الرسم البياني الطيفي للصوت النظيف $S(f,t) = STFT(a_c)$
المخرج: تضمين متحدث بـ 192 بُعد $S_{ac} \in \mathbb{R}^{192}$

الشبكة الصوتية-البصرية (الشكل 1ب):

ترميز الصوت: $E_a \in \mathbb{R}^{t_a \times 768}$
ترميز الفيديو (حركة الشفاه): $E_v \in \mathbb{R}^{t_v \times 512}$
ترميز صورة الوجه: $E_f \in \mathbb{R}^{128}$
دمج الميزات: $F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}$
معالجة الميزات المدمجة من خلال مشفر محول بثلاث طبقات
المخرج: متجه تسجيل بـ 192 بُعد $S_{avf} \in \mathbb{R}^{192}$

الشبكة البصرية البحتة (الشكل 1ب):

استخدام المعلومات البصرية فقط (حركة الشفاه و/أو صورة الوجه)
المخرج: $S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))$

2. شبكة فصل المتحدث

تستند إلى معمارية VoiceFormer، تتضمن مشفر-فاك صوتي ومشفر تضمين متحدث
المدخل: موجة صوتية مشوشة ومتجهات تسجيل موجبة وسالبة متعددة
استخدام مشفر محول بثلاث طبقات لدمج الصوت وترميز المتحدث
تعزيز الميزات المطابقة للمتحدث المستهدف من خلال آلية الانتباه، وقمع ميزات المتحدثين غير المستهدفين
الاتصالات المتخطية بين المشفر والفاك تحتفظ بالمعلومات منخفضة المستوى وعالية المستوى

نقاط الابتكار التقني

استراتيجية التدريب بالتقطير المعرفي: تتعلم شبكة التسجيل الصوتية-البصرية محاكاة مخرجات الشبكة الصوتية البحتة من خلال التقطير المعرفي، مما يضمن الاتساق بين الأنماط المختلفة.
المرونة متعددة الأنماط: تدعم إنشاء متجهات التسجيل من مجموعات أنماط مختلفة، بما في ذلك الوضع البصري البحت المبتكر.
آلية التعلم المتناقض: استخدام العينات الموجبة والسالبة في نفس الوقت لتوفير قدرة تمييز متحدث أقوى.

إعداد التجارب

مجموعات البيانات

LRS3: مجموعة بيانات صوتية-بصرية واسعة النطاق من مقاطع فيديو TEDx العامة، تتضمن أنماط كلام وموضوعات متنوعة
LibriSpeech: مجموعة بيانات صوتية واسعة النطاق من الكتب الصوتية في المجال العام
لم يتم رؤية المتحدثين في مجموعة الاختبار أثناء التدريب، مما يضمن تقييم القدرة على التعميم

مقاييس التقييم

SDR (نسبة الإشارة إلى التشويه): قياس جودة مخرجات الفصل
STOI (قابلية الفهم الموضوعية قصيرة المدى): تحديد كمية قابلية فهم الإشارة
PESQ (التقييم الإدراكي لجودة الكلام): يعكس درجة الإدراك التي يشعر بها المستمع

طرق المقارنة

الطرق الصوتية: VoiceFilter
الطرق الصوتية-البصرية: Conversation و VisualVoice و VoiceFormer

تفاصيل التنفيذ

التنفيذ باستخدام PyTorch
بيانات الفيديو: 25 إطار في الثانية، قص الوجه إلى منطقة فم المتحدث
الصوت: أحادي، معدل العينة 16 كيلوهرتز
محول: 3 طبقات، 8 رؤوس انتباه، بُعد النموذج 532
بيانات التدريب: مقاطع صوتية بطول 4 ثوان، مع قص عشوائي وتطبيق تعزيز البيانات مثل تعديل السرعة والنبرة والديسيبل

نتائج التجارب

النتائج الرئيسية

تأثير متجهات التضمين الموجبة والسالبة (الجدول 1):

التكوين	1P-0N	1P-1N	3P-2N	3P-3N
SDR↑	13.8	14.0	14.4	14.5

تشير النتائج إلى أن زيادة عدد متجهات التسجيل الموجبة والسالبة تحسن أداء الفصل.

المقارنة متعددة الأنماط (الجدول 2):

النمط	الصوت	البصري	SDR↑	STOI↑	PESQ↑
صوت نظيف	✓	✗	14.4	91	2.52
صوت نظيف + شفاه	✓	✓	14.5	91	2.55
صوت مشوش	✓	✗	6.3	58	1.82
صوت مشوش + شفاه	✓	✓	13.7	88	2.45
حركة الشفاه فقط	✗	✓	11.1	77	2.25
شفاه + وجه	✗	✓	12.0	80	2.35

المقارنة مع طرق الحالة الراهنة (الجدول 3):

الطريقة	مجموعة البيانات	SDR↑	STOI↑	PESQ↑
VoiceFormer	LRS3	14.4	92	2.42
VoiceVector	LRS3	14.5	91	2.52
VoiceFilter	LibriSpeech	12.6	-	-
VoiceVector	LibriSpeech	13.1	89	2.12

النتائج الرئيسية

فعالية الوضع البصري البحت: تحقيق أداء SDR بقيمة 11.1 باستخدام حركة الشفاه فقط، مما يثبت أهمية المعلومات البصرية.
القوة تجاه الضوضاء: عند دمج الإشارات البصرية، تحسنت أداء الصوت المشوش بشكل كبير من SDR 6.3 إلى 13.7.
التعميم عبر مجموعات البيانات: لا تزال تتفوق على الطرق الأساسية على مجموعة بيانات LibriSpeech التي لم يتم التدريب عليها.

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

طرق التكييف متعددة الأنماط: الاستفادة من الإشارات البصرية (بشكل أساسي حركة الشفاه) لتوجيه الفصل
طرق التضمين الخاصة بالمتحدث: إنشاء تضمينات المتحدث بناءً على عينات الكلام النظيفة للتكييف

مزايا هذه الورقة

مقارنة بالطرق الصوتية-البصرية التقليدية: لا تتطلب مرحلة الفصل معلومات بصرية، مما يحسن القوة والكفاءة الحسابية
مقارنة بالطرق الصوتية البحتة: توفير قدرة تمييز متحدث أقوى من خلال متجهات التسجيل متعددة الأنماط
إدخال آلية العينات السالبة: توفير تأثير تعلم متناقض أفضل مقارنة بالطرق السابقة التي تستخدم العينات الموجبة فقط

الاستنتاجات والمناقشة

الاستنتاجات الرئيسية

نجحت المعمارية ثنائية المرحلة المقترحة في الجمع بين مزايا التكييف الصوتي والبصري
أظهرت متجهات التسجيل متعددة الأنماط أداءً جيدًا في جميع السيناريوهات
حسنت آلية التعلم المتناقض بالعينات الموجبة والسالبة أداء الفصل بشكل فعال
حققت أداءً متفوقًا على الطرق الموجودة على مجموعات البيانات القياسية

القيود

الاعتماد على البيانات الاصطناعية: التدريب والاختبار بشكل أساسي على الصوت المختلط الاصطناعي، قد يكون هناك فجوة مجال مع بيئات الضوضاء الحقيقية
متطلبات جودة البصريات: لا يزال الوضع البصري البحت يتطلب فيديو حركة شفاه واضح
التعقيد الحسابي: تزيد المعمارية ثنائية المرحلة من التعقيد الكلي للنظام

الاتجاهات المستقبلية

التحقق والتحسين في بيئات الضوضاء الحقيقية
استكشاف دمج أنماط بصرية أخرى (مثل الإيماءات والتعبيرات)
البحث الإضافي في استراتيجيات التحسين من النهاية إلى النهاية

التقييم المتعمق

المزايا

ابتكار تقني قوي: أول تطبيق لوضع بصري بحت لتسجيل المتحدث، مما يفتح اتجاهات جديدة في معالجة الكلام البصري
تصميم معمارية معقول: يوازن التصميم ثنائي المرحلة بذكاء بين الأداء والعملية
تجارب شاملة: تقييم شامل يغطي مجموعات أنماط متعددة وطرق مقارنة
تحسن أداء واضح: يتفوق على طرق الحالة الراهنة في مقاييس متعددة

أوجه القصور

التحقق من السيناريوهات الحقيقية غير كافٍ: يعتمد بشكل أساسي على البيانات الاصطناعية، يفتقر إلى التحقق في بيئات الضوضاء الحقيقية
تحليل الكفاءة الحسابية مفقود: لم يتم توفير تحليل تفصيلي للتعقيد الحسابي ووقت الاستدلال
تحليل حالات الفشل غير كافٍ: يفتقر إلى تحليل متعمق لقيود الطريقة

التأثير

القيمة الأكاديمية: توفير أفكار بحثية جديدة لفصل الكلام متعدد الأنماط
القيمة العملية: لها قيمة محتملة في التطبيقات الفعلية مثل أجهزة السمع ومؤتمرات الفيديو
القابلية للتكرار: توفير تفاصيل تنفيذ مفصلة تسهل تكرار البحث

السيناريوهات المعمول بها

أنظمة مؤتمرات الفيديو: الاستفادة من المعلومات البصرية للمشاركين لفصل الكلام
أجهزة السمع الذكية: إبراز صوت المتحدث المستهدف في البيئات الصاخبة
معالجة محتوى الوسائط المتعددة: استخراج كلام متحدث محدد من محتوى الصوت والفيديو

المراجع

تستشهد الورقة بأعمال مهمة في مجال فصل الكلام، بما في ذلك:

سلسلة VoiceFilter: طرق الفصل القائمة على تضمين المتحدث
Looking to Listen و VoiceFormer: أعمال تمثيلية في فصل الصوت والفيديو
ECAPA-TDNN: نموذج كلاسيكي في التعرف على المتحدث
LRS3 و LibriSpeech: مجموعات بيانات قياسية في معالجة الكلام

التقييم الشامل: هذه ورقة بحثية ممتازة بابتكار تقني قوي وتصميم تجريبي معقول. من خلال تصميم معمارية ثنائية المرحلة ذكية واستراتيجية دمج متعددة الأنماط، حققت تحسنًا ملحوظًا في أداء مهمة فصل الكلام. الاستخدام المبتكر للوضع البصري البحت يوفر اتجاهًا بحثيًا جديدًا لهذا المجال. على الرغم من وجود مجال للتحسين في التحقق من السيناريوهات الحقيقية، فإن جودة العمل الإجمالية عالية وله قيمة أكاديمية وعملية مهمة.