2025-11-16T04:37:12.332621

Déréverbération non-supervisée de la parole par modèle hybride

Bahrman, Fontaine, Richard
This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
academic

إزالة الصدى غير الموجهة للكلام باستخدام نموذج هجين

المعلومات الأساسية

  • معرّف الورقة: 2510.09025
  • العنوان: Déréverbération non-supervisée de la parole par modèle hybride (إزالة الصدى غير الموجهة للكلام باستخدام نموذج هجين)
  • المؤلفون: Louis Bahrman, Mathieu Fontaine, Gaël Richard (LTCI، Télécom Paris، Institut Polytechnique de Paris)
  • التصنيف: cs.SD cs.AI eess.AS
  • تاريخ النشر: 10 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.09025

الملخص

تقترح هذه الورقة استراتيجية تدريب جديدة لتحسين أنظمة إزالة الصدى من الكلام بطريقة غير موجهة باستخدام كلام مصحوب بالصدى فقط. تعتمد معظم الخوارزميات الموجودة على بيانات نظيفة/مصحوبة بالصدى متطابقة، وهي بيانات يصعب الحصول عليها. تستخدم الطريقة معلومات صوتية محدودة (مثل وقت الصدى RT60) لتدريب نظام إزالة الصدى. تُظهر النتائج التجريبية أداءً أكثر اتساقاً مقارنة بأحدث الطرق على مختلف المقاييس الموضوعية.

الخلفية البحثية والدافع

  1. المشكلة الأساسية: في البيئات الداخلية، تتأثر إشارات الكلام بانعكاسات الجدران وحيود العوائق، مما ينتج عنه ظاهرة الصدى التي تقلل من وضوح التسجيلات الصوتية. يتطلب الأمر تطوير طرق لإزالة الصدى للتخفيف من هذا التأثير.
  2. أهمية المشكلة: يؤثر الصدى بشكل كبير على جودة الكلام والوضوح، مما يتطلب تقنيات فعالة لإزالة الصدى في تطبيقات مثل التعرف على الكلام وأنظمة الاتصالات.
  3. قيود الطرق الموجودة:
    • تتطلب الطرق التمييزية كميات كبيرة من البيانات المتطابقة (نظيفة، مصحوبة بالصدى)، وهي صعبة الحصول عليها
    • على الرغم من أن الطرق التوليدية تتطلب إشرافاً أقل، إلا أنها تحتاج إلى بيانات كلام نظيفة، وهي أصعب في الحصول عليها من البيانات المصحوبة بالصدى
    • طرق مثل MetricGAN-U التي تستخدم الإشارات المصحوبة بالصدى فقط تعتمد على تحسين مقياس واحد، مما يؤدي إلى أداء غير شامل
  4. الدافع البحثي: تطوير طريقة غير موجهة لإزالة الصدى تستخدم كلام مصحوب بالصدى فقط، مع الاستفادة من معلومات صوتية محدودة مثل وقت الصدى للتدريب.

المساهمات الأساسية

  1. اقتراح إطار عمل التدريب الذاتي للصدى: استخدام مبتكر لنموذج الصدى للإشراف على تدريب الشبكات العصبية العميقة، بدلاً من الإشراف التقليدي القائم على المقاييس
  2. تصميم استراتيجية تدريب مدركة لوقت الصدى: دمج النماذج الصوتية والتعلم العميق، مع الاستفادة من معاملات مثل RT60 لتوجيه التدريب
  3. تحقيق تحسن أداء أكثر اتساقاً: تفوق على طرق الإشراف القائمة على المقاييس على عدة مقاييس موضوعية
  4. توفير تطبيق مفتوح المصدر: نشر الكود والنماذج المدربة مسبقاً والأمثلة لتعزيز إعادة إنتاج البحث

شرح الطريقة

تعريف المهمة

الإدخال: إشارة كلام مصحوبة بالصدى Y الإخراج: تقدير إشارة الكلام النظيفة Ŝ القيود: استخدام إشارات مصحوبة بالصدى فقط أثناء التدريب، بدون الحاجة إلى بيانات متطابقة نظيفة/مصحوبة بالصدى

معمارية النموذج

1. الإطار العام

تتضمن الطريقة ثلاثة مكونات رئيسية:

  • محلل الصدى A: تقدير المعاملات الصوتية (بشكل أساسي RT60) من الإشارة المصحوبة بالصدى
  • مركب RIS S: تركيب استجابة الغرفة النبضية بناءً على المعاملات الصوتية
  • نموذج الالتفاف C: إجراء التفاف عبر النطاقات الترددية في مجال الوقت-التردد

2. نموذج الصدى

نموذج الإشارة:

y(n) = (s ⋆ h)(n)

حيث y هي الإشارة المصحوبة بالصدى، s هي الإشارة النظيفة، h هي استجابة الغرفة النبضية (RIS).

نموذج Polack للصدى:

h_l(n) = b(n)e^(-3ln(10)n/(RT60·f_s))

حيث b(n)~N(0,σ²) هي ضوضاء بيضاء، وRT60 هو وقت الصدى.

3. التفاف الوقت-التردد

في مجال تحويل فورييه قصير الأمد (STFT)، يتم تمثيل الالتفاف كالتالي:

Y_{f,t} = ∑∑ H_{f,f',t'} S_{f',t-t'}

4. مركب RIS

يتم تعريف RIS المركب كالتالي:

S(Θ)(n) = {
  |b(n)|e^(-3ln(10)n/(RT60·f_s)), n > n_m
  1,                               n = 0  
  0,                               غير ذلك
}

نقاط الابتكار التقني

  1. استراتيجية التدريب الذاتي للصدى: بخلاف الإشراف التقليدي القائم على المقاييس، استخدام مباشر للنموذج الفيزيائي للصدى للإشراف
  2. التفاف الوقت-التردد عبر النطاقات: تطبيق عملية التفاف قابلة للاشتقاق في مجال الوقت-التردد، مما يسهل الانتشار العكسي للتدرجات
  3. دالة خسارة مطابقة الصدى:
L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²

إعداد التجارب

مجموعات البيانات

  • بيانات التدريب: تسجيلات الميكروفون المثبتة على الرأس من مجموعة WSJ1، 73 ساعة من الصوت، 60307 مقطع
  • بيانات RIS: 32000 RIS تم إنشاؤها باستخدام pyroomacoustics من 2000 غرفة محاكاة
  • معاملات الغرفة:
    • الأبعاد: 5,10×5,10×2.5,4 م³
    • RT60: 0.2,1.0 ثانية
    • مسافة المصدر-الميكروفون: 0.75,2.5 م

مقاييس التقييم

  • SISDR: نسبة تشويه الإشارة غير المتغيرة بالحجم
  • ESTOI: وضوح الكلام الموضوعي قصير الأمد الموسع
  • WB-PESQ: تقييم جودة الكلام المدرك بنطاق عريض
  • SRMR: نسبة طاقة الكلام إلى الصدى

طرق المقارنة

  1. طرق الإشراف الكامل: FullSubNet و BiLSTM المدربة على بيانات متطابقة
  2. طرق الإشراف الضعيف: إصدارات تستخدم RT60 المثالي
  3. طرق الإشراف العمياء: نسخة غير موجهة بالكامل تستخدم RT60 المقدر
  4. طرق الأساس: MetricGAN-U (BiLSTM+SRMR)

تفاصيل التطبيق

  • معالجة الصوت: 16 كيلوهرتز معدل العينة، نافذة Hann بـ 512 نقطة، تداخل 50%
  • المحسّن: محسّن Adam
  • معيار التوقف: بناءً على مقياس SISDR لمجموعة التحقق
  • النموذج: معماريات FullSubNet (FSN) و BiLSTM

نتائج التجارب

النتائج الرئيسية

النموذجنوع الإشرافSISDRESTOIWB-PESQSRMR
FSNإشراف كامل5.6±3.90.84±0.102.55±0.678.2±3.5
FSNإشراف ضعيف2.9±3.50.71±0.151.78±0.706.9±2.8
FSNإشراف أعمى (مقترح)2.8±3.40.71±0.151.78±0.706.9±2.8
BiLSTMإشراف كامل1.3±4.30.78±0.122.25±0.787.9±3.0
BiLSTMإشراف ضعيف1.6±3.70.71±0.151.84±0.746.9±2.8
BiLSTMإشراف أعمى (مقترح)1.5±3.70.71±0.151.84±0.746.9±2.8
BiLSTMأساس SRMR-1.5±3.50.64±0.181.78±0.7210.9±4.3
-إشارة مصحوبة بالصدى-1.3±3.50.69±0.161.75±0.746.9±2.9

الاكتشافات الرئيسية

  1. ميزة الاتساق: تتفوق الطريقة المقترحة على أساس SRMR على ثلاثة مقاييس (SISDR و ESTOI و WB-PESQ)
  2. قيود الأساس: يُظهر أساس MetricGAN-U أفضل أداء على مقياس SRMR، لكن الأداء تنخفض على مقاييس أخرى، حتى أقل من الإشارة الأصلية المصحوبة بالصدى
  3. قوة التقدير: تُظهر النسخة العمياء أداءً مشابهاً تقريباً للنسخة الضعيفة، مما يشير إلى قوة الطريقة تجاه أخطاء تقدير RT60
  4. قابلية تكيف النموذج: يُظهر BiLSTM انخفاضاً أصغر في الأداء من الإشراف الكامل إلى الضعيف، ربما لأنه يعالج فقط أقنعة السعة، وهو أقل حساسية لاضطرابات الطور

الأعمال ذات الصلة

الطرق التقليدية

  • معالجة الإشارات الإحصائية: مثل طريقة الخطأ المتنبأ به المرجح (WPE)
  • تقريب دوال النقل الالتفافية: نمذجة الصدى كعملية تصفية في النطاقات الفرعية

طرق التعلم العميق

  • الطرق التمييزية: التنبؤ المباشر بالإشارة النظيفة أو الأقنعة المعقدة
  • الطرق التوليدية: مثل أجهزة التشفير التلقائي المتغيرة لتعلم توزيع الكلام النظيف
  • الطرق الهجينة: دمج النماذج التقليدية والتعلم العميق، مثل USDNet

الطرق غير الموجهة

  • MetricGAN-U: استخدام الشبكات الخصومية لتحسين مقاييس محددة
  • طرق نماذج الانتشار: مثل BUDDy التي تستخدم نماذج الانتشار لإزالة الصدى العمياء

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يحقق الإشراف الذاتي للصدى تحسناً أكثر اتساقاً مقارنة بالإشراف الذاتي القائم على المقاييس
  2. تحقق الطريقة تحسناً على عدة مقاييس موضوعية، مما يتجنب قيود تحسين مقياس واحد
  3. لا يؤثر التقدير الأعمى لـ RT60 بشكل كبير على الأداء، مما يعزز الجدوى العملية للطريقة

القيود

  1. تعقيد النموذج: مقارنة بالطرق المدفوعة بالبيانات البحتة، تتطلب مكونات نمذجة صدى إضافية
  2. الاعتماد على المعاملات: على الرغم من إمكانية التقدير الأعمى، لا تزال تعتمد على دقة المعاملات الصوتية مثل RT60
  3. تبسيط نموذج الصدى: نموذج Polack المستخدم هو نموذج صدى مبسط قد لا يتطابق تماماً مع البيئات الحقيقية
  4. حساسية الطور: تكون طرق الطيف المعقد (مثل FSN) أكثر حساسية لاضطرابات الطور في نموذج الصدى

الاتجاهات المستقبلية

  1. التوسع التوليدي: تطبيق الطريقة على نماذج توليدية للنظر بشكل أفضل في نماذج RIS الاحتمالية
  2. نماذج صدى أكثر تعقيداً: الأخذ في الاعتبار نماذج فيزيائية أكثر دقة للصدى
  3. التوسع متعدد القنوات: توسيع الطريقة إلى سيناريوهات متعددة الميكروفونات
  4. التطبيقات في الوقت الفعلي: تحسين الكفاءة الحسابية لدعم المعالجة في الوقت الفعلي

التقييم المتعمق

المميزات

  1. ابتكار قوي: أول من يقترح استراتيجية تدريب ذاتي للصدى، مع مسار تقني مبتكر
  2. قيمة عملية عالية: حل المشكلة العملية لصعوبة الحصول على بيانات تدريب متطابقة
  3. تجارب شاملة: تقييم شامل على عدة مقاييس ومعماريات نماذج
  4. مساهمة مفتوحة المصدر: توفير كود كامل ونماذج، مما يضمن إعادة إنتاج البحث
  5. أساس نظري متين: يعتمد على نظرية الصوتيات الناضجة للصدى

أوجه القصور

  1. فجوة الأداء: لا تزال هناك فجوة أداء واضحة مقارنة بطرق الإشراف الكامل
  2. قيود التقييم: التقييم على بيانات محاكاة فقط، مع نقص التحقق في بيئات حقيقية
  3. تحليل حساسية المعاملات غير كافٍ: تحليل محدود لحساسية معاملات نموذج الصدى
  4. التكلفة الحسابية: يتطلب التدريب حسابات نمذجة صدى إضافية

التأثير

  1. المساهمة الأكاديمية: توفير نموذج تدريب غير موجه جديد لإزالة الصدى من الكلام
  2. القيمة العملية: تقليل متطلبات البيانات لأنظمة إزالة الصدى عالية الجودة
  3. قابلية الإعادة: يضمن الكود المفتوح والإعدادات التجريبية التفصيلية قابلية الإعادة
  4. الدلالة الملهمة: توفير أفكار حول الإشراف بالنماذج الفيزيائية لمهام تحسين الكلام الأخرى

السيناريوهات القابلة للتطبيق

  1. سيناريوهات نقص البيانات: بيئات التطبيق التي تفتقر إلى بيانات تدريب متطابقة
  2. البيئات الصوتية المحددة: بيئات ثابتة حيث تكون المعاملات الصوتية الأساسية معروفة
  3. النشر السريع: أنظمة تحتاج إلى التكيف السريع مع بيئات جديدة
  4. نماذج البحث الأولية: كمكون أساسي لأنظمة أكثر تعقيداً

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:

  • الأساس النظري الكلاسيكي لنموذج Polack للصدى
  • طرق إزالة الصدى التقليدية مثل WPE
  • أحدث الطرق غير الموجهة مثل MetricGAN-U
  • نماذج تحسين الكلام المتقدمة مثل FullSubNet
  • الخوارزميات ذات الصلة لتقدير معاملات الصدى الأعمى

تقترح هذه الورقة إطار عمل مبتكراً غير موجه لإزالة الصدى من الكلام، من خلال دمج ذكي للنمذجة الصوتية والتعلم العميق، وتحقيق توازن جيد بين الجدوى العملية والأداء. على الرغم من وجود فجوة مقارنة بطرق الإشراف الكامل، إلا أنها توفر حلاً قيماً لحل مشكلة صعوبة الحصول على البيانات في التطبيقات العملية.