We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
- معرّف الورقة: 2501.01401
- العنوان: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
- المؤلفون: أكام رحيمي، تريانتافيلوس أفوراس، أندرو زيسرمان (مجموعة VGG بجامعة أكسفورد)
- التصنيف: eess.AS (الهندسة الكهربائية وعلوم الأنظمة - معالجة الصوت والكلام)
- تاريخ النشر: 2 يناير 2025 (نسخة arXiv التمهيدية)
- رابط الورقة: https://arxiv.org/abs/2501.01401
تقترح هذه الورقة معمارية قائمة على محول (Transformer) لفصل صوت المتحدث المستهدف من بين عدة متحدثين والضوضاء البيئية. تستخدم الطريقة شبكتي عصبيتين مستقلتين: (أ) شبكة تسجيل تستفيد من مجموعات متنوعة من الأنماط الصوتية والبصرية لإنشاء متجهات تضمين خاصة بالمتحدث؛ (ب) شبكة فصل تقبل الإشارة المشوشة ومتجهات التسجيل كمدخلات وتنتج إشارة نظيفة للمتحدث المستهدف. تشمل نقاط الابتكار الرئيسية: (i) يمكن إنشاء متجهات التسجيل من بيانات صوتية فقط أو صوتية-بصرية (باستخدام حركة الشفاه) أو بيانات بصرية فقط (باستخدام حركة الشفاه من الفيديو الصامت)؛ (ii) المرونة في استخدام متجهات تسجيل موجبة وسالبة متعددة أثناء عملية الفصل.
يعتبر فصل الكلام تحديًا أساسيًا في معالجة الصوت، خاصة في البيئات الصاخبة وسيناريوهات المتحدثين المتعددين. تعتمد التطبيقات الموجودة مثل أجهزة السمع والأنظمة المنشطة بالصوت ومؤتمرات الفيديو بشكل كبير على أداء فصل الكلام.
- الطرق القائمة على التضمين الصوتي: تعتمد طرق مثل VoiceFilter على صوت نظيف وخالٍ من الضوضاء لإنشاء تضمينات المتحدث، وهو أمر يصعب الحصول عليه في بيئات الضوضاء العملية.
- الطرق الصوتية-البصرية: بينما تستفيد طرق مثل Looking to Listen و VoiceFormer من الإشارات البصرية (حركة الشفاه)، إلا أنها تتطلب الحصول المستمر على المعلومات البصرية أثناء عملية الفصل، وتنخفض الأداء عند حجب أو فقدان البيانات البصرية.
تهدف هذه الورقة إلى الجمع بين مزايا طرق التكييف الصوتي والبصري مع تجنب التحديات الكامنة في كل منهما. من خلال تصميم ثنائي المرحلة: يمكن لمرحلة التسجيل الاستفادة من المعلومات متعددة الأنماط لإنشاء تمثيل متحدث قوي، بينما تعتمد مرحلة الفصل فقط على بيانات الصوت، مما يحسن الكفاءة الحسابية والقوة تجاه التغييرات في المعلومات البصرية.
- شبكة التسجيل متعددة الأنماط: تقترح شبكة تضمين متحدث قادرة على معالجة المدخلات الصوتية والصوتية-البصرية والبصرية البحتة، مع دعم مبتكر لإنشاء متجهات التسجيل من الفيديو الصامت فقط.
- التكييف بالعينات الموجبة والسالبة: تقدم آلية تعلم متناقضة تستخدم متجهات تسجيل موجبة (المتحدث المستهدف) وسالبة (المتحدثون غير المستهدفين) في نفس الوقت.
- مزايا المعمارية ثنائية المرحلة: مرحلة الفصل لا تعتمد بالكامل على المعلومات البصرية، مما يحل قيود الطرق الصوتية-البصرية التقليدية عند فقدان المعلومات البصرية.
- تحسن الأداء: حققت أداءً متفوقًا على الطرق الموجودة على مجموعات بيانات LRS3 و LibriSpeech.
بالنظر إلى إشارة صوتية مختلطة تحتوي على المتحدث المستهدف والمتحدثين الآخرين والضوضاء البيئية، الهدف هو فصل مكون الكلام للمتحدث المستهدف ذي الخصائص الصوتية المحددة، مع تصفية الأصوات المتنافسة والضوضاء البيئية.
الشبكة الصوتية البحتة (الشكل 1أ):
- استخدام نموذج ECAPA-TDNN المدرب مسبقًا كمستخرج لميزات المتحدث
- المدخل: الرسم البياني الطيفي للصوت النظيف S(f,t)=STFT(ac)
- المخرج: تضمين متحدث بـ 192 بُعد Sac∈R192
الشبكة الصوتية-البصرية (الشكل 1ب):
- ترميز الصوت: Ea∈Rta×768
- ترميز الفيديو (حركة الشفاه): Ev∈Rtv×512
- ترميز صورة الوجه: Ef∈R128
- دمج الميزات: F(Ea,Ev,Ef)=(Ea;Ev;Ef)∈R(ta+tv+1)×768
- معالجة الميزات المدمجة من خلال مشفر محول بثلاث طبقات
- المخرج: متجه تسجيل بـ 192 بُعد Savf∈R192
الشبكة البصرية البحتة (الشكل 1ب):
- استخدام المعلومات البصرية فقط (حركة الشفاه و/أو صورة الوجه)
- المخرج: Svf=SpeakerExtractor(Transformer([Ev;Ef]))
- تستند إلى معمارية VoiceFormer، تتضمن مشفر-فاك صوتي ومشفر تضمين متحدث
- المدخل: موجة صوتية مشوشة ومتجهات تسجيل موجبة وسالبة متعددة
- استخدام مشفر محول بثلاث طبقات لدمج الصوت وترميز المتحدث
- تعزيز الميزات المطابقة للمتحدث المستهدف من خلال آلية الانتباه، وقمع ميزات المتحدثين غير المستهدفين
- الاتصالات المتخطية بين المشفر والفاك تحتفظ بالمعلومات منخفضة المستوى وعالية المستوى
- استراتيجية التدريب بالتقطير المعرفي: تتعلم شبكة التسجيل الصوتية-البصرية محاكاة مخرجات الشبكة الصوتية البحتة من خلال التقطير المعرفي، مما يضمن الاتساق بين الأنماط المختلفة.
- المرونة متعددة الأنماط: تدعم إنشاء متجهات التسجيل من مجموعات أنماط مختلفة، بما في ذلك الوضع البصري البحت المبتكر.
- آلية التعلم المتناقض: استخدام العينات الموجبة والسالبة في نفس الوقت لتوفير قدرة تمييز متحدث أقوى.
- LRS3: مجموعة بيانات صوتية-بصرية واسعة النطاق من مقاطع فيديو TEDx العامة، تتضمن أنماط كلام وموضوعات متنوعة
- LibriSpeech: مجموعة بيانات صوتية واسعة النطاق من الكتب الصوتية في المجال العام
- لم يتم رؤية المتحدثين في مجموعة الاختبار أثناء التدريب، مما يضمن تقييم القدرة على التعميم
- SDR (نسبة الإشارة إلى التشويه): قياس جودة مخرجات الفصل
- STOI (قابلية الفهم الموضوعية قصيرة المدى): تحديد كمية قابلية فهم الإشارة
- PESQ (التقييم الإدراكي لجودة الكلام): يعكس درجة الإدراك التي يشعر بها المستمع
- الطرق الصوتية: VoiceFilter
- الطرق الصوتية-البصرية: Conversation و VisualVoice و VoiceFormer
- التنفيذ باستخدام PyTorch
- بيانات الفيديو: 25 إطار في الثانية، قص الوجه إلى منطقة فم المتحدث
- الصوت: أحادي، معدل العينة 16 كيلوهرتز
- محول: 3 طبقات، 8 رؤوس انتباه، بُعد النموذج 532
- بيانات التدريب: مقاطع صوتية بطول 4 ثوان، مع قص عشوائي وتطبيق تعزيز البيانات مثل تعديل السرعة والنبرة والديسيبل
تأثير متجهات التضمين الموجبة والسالبة (الجدول 1):
| التكوين | 1P-0N | 1P-1N | 3P-2N | 3P-3N |
|---|
| SDR↑ | 13.8 | 14.0 | 14.4 | 14.5 |
تشير النتائج إلى أن زيادة عدد متجهات التسجيل الموجبة والسالبة تحسن أداء الفصل.
المقارنة متعددة الأنماط (الجدول 2):
| النمط | الصوت | البصري | SDR↑ | STOI↑ | PESQ↑ |
|---|
| صوت نظيف | ✓ | ✗ | 14.4 | 91 | 2.52 |
| صوت نظيف + شفاه | ✓ | ✓ | 14.5 | 91 | 2.55 |
| صوت مشوش | ✓ | ✗ | 6.3 | 58 | 1.82 |
| صوت مشوش + شفاه | ✓ | ✓ | 13.7 | 88 | 2.45 |
| حركة الشفاه فقط | ✗ | ✓ | 11.1 | 77 | 2.25 |
| شفاه + وجه | ✗ | ✓ | 12.0 | 80 | 2.35 |
المقارنة مع طرق الحالة الراهنة (الجدول 3):
| الطريقة | مجموعة البيانات | SDR↑ | STOI↑ | PESQ↑ |
|---|
| VoiceFormer | LRS3 | 14.4 | 92 | 2.42 |
| VoiceVector | LRS3 | 14.5 | 91 | 2.52 |
| VoiceFilter | LibriSpeech | 12.6 | - | - |
| VoiceVector | LibriSpeech | 13.1 | 89 | 2.12 |
- فعالية الوضع البصري البحت: تحقيق أداء SDR بقيمة 11.1 باستخدام حركة الشفاه فقط، مما يثبت أهمية المعلومات البصرية.
- القوة تجاه الضوضاء: عند دمج الإشارات البصرية، تحسنت أداء الصوت المشوش بشكل كبير من SDR 6.3 إلى 13.7.
- التعميم عبر مجموعات البيانات: لا تزال تتفوق على الطرق الأساسية على مجموعة بيانات LibriSpeech التي لم يتم التدريب عليها.
- طرق التكييف متعددة الأنماط: الاستفادة من الإشارات البصرية (بشكل أساسي حركة الشفاه) لتوجيه الفصل
- طرق التضمين الخاصة بالمتحدث: إنشاء تضمينات المتحدث بناءً على عينات الكلام النظيفة للتكييف
- مقارنة بالطرق الصوتية-البصرية التقليدية: لا تتطلب مرحلة الفصل معلومات بصرية، مما يحسن القوة والكفاءة الحسابية
- مقارنة بالطرق الصوتية البحتة: توفير قدرة تمييز متحدث أقوى من خلال متجهات التسجيل متعددة الأنماط
- إدخال آلية العينات السالبة: توفير تأثير تعلم متناقض أفضل مقارنة بالطرق السابقة التي تستخدم العينات الموجبة فقط
- نجحت المعمارية ثنائية المرحلة المقترحة في الجمع بين مزايا التكييف الصوتي والبصري
- أظهرت متجهات التسجيل متعددة الأنماط أداءً جيدًا في جميع السيناريوهات
- حسنت آلية التعلم المتناقض بالعينات الموجبة والسالبة أداء الفصل بشكل فعال
- حققت أداءً متفوقًا على الطرق الموجودة على مجموعات البيانات القياسية
- الاعتماد على البيانات الاصطناعية: التدريب والاختبار بشكل أساسي على الصوت المختلط الاصطناعي، قد يكون هناك فجوة مجال مع بيئات الضوضاء الحقيقية
- متطلبات جودة البصريات: لا يزال الوضع البصري البحت يتطلب فيديو حركة شفاه واضح
- التعقيد الحسابي: تزيد المعمارية ثنائية المرحلة من التعقيد الكلي للنظام
- التحقق والتحسين في بيئات الضوضاء الحقيقية
- استكشاف دمج أنماط بصرية أخرى (مثل الإيماءات والتعبيرات)
- البحث الإضافي في استراتيجيات التحسين من النهاية إلى النهاية
- ابتكار تقني قوي: أول تطبيق لوضع بصري بحت لتسجيل المتحدث، مما يفتح اتجاهات جديدة في معالجة الكلام البصري
- تصميم معمارية معقول: يوازن التصميم ثنائي المرحلة بذكاء بين الأداء والعملية
- تجارب شاملة: تقييم شامل يغطي مجموعات أنماط متعددة وطرق مقارنة
- تحسن أداء واضح: يتفوق على طرق الحالة الراهنة في مقاييس متعددة
- التحقق من السيناريوهات الحقيقية غير كافٍ: يعتمد بشكل أساسي على البيانات الاصطناعية، يفتقر إلى التحقق في بيئات الضوضاء الحقيقية
- تحليل الكفاءة الحسابية مفقود: لم يتم توفير تحليل تفصيلي للتعقيد الحسابي ووقت الاستدلال
- تحليل حالات الفشل غير كافٍ: يفتقر إلى تحليل متعمق لقيود الطريقة
- القيمة الأكاديمية: توفير أفكار بحثية جديدة لفصل الكلام متعدد الأنماط
- القيمة العملية: لها قيمة محتملة في التطبيقات الفعلية مثل أجهزة السمع ومؤتمرات الفيديو
- القابلية للتكرار: توفير تفاصيل تنفيذ مفصلة تسهل تكرار البحث
- أنظمة مؤتمرات الفيديو: الاستفادة من المعلومات البصرية للمشاركين لفصل الكلام
- أجهزة السمع الذكية: إبراز صوت المتحدث المستهدف في البيئات الصاخبة
- معالجة محتوى الوسائط المتعددة: استخراج كلام متحدث محدد من محتوى الصوت والفيديو
تستشهد الورقة بأعمال مهمة في مجال فصل الكلام، بما في ذلك:
- سلسلة VoiceFilter: طرق الفصل القائمة على تضمين المتحدث
- Looking to Listen و VoiceFormer: أعمال تمثيلية في فصل الصوت والفيديو
- ECAPA-TDNN: نموذج كلاسيكي في التعرف على المتحدث
- LRS3 و LibriSpeech: مجموعات بيانات قياسية في معالجة الكلام
التقييم الشامل: هذه ورقة بحثية ممتازة بابتكار تقني قوي وتصميم تجريبي معقول. من خلال تصميم معمارية ثنائية المرحلة ذكية واستراتيجية دمج متعددة الأنماط، حققت تحسنًا ملحوظًا في أداء مهمة فصل الكلام. الاستخدام المبتكر للوضع البصري البحت يوفر اتجاهًا بحثيًا جديدًا لهذا المجال. على الرغم من وجود مجال للتحسين في التحقق من السيناريوهات الحقيقية، فإن جودة العمل الإجمالية عالية وله قيمة أكاديمية وعملية مهمة.