This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
academic
إزالة الصدى غير الموجهة للكلام باستخدام نموذج هجين
تقترح هذه الورقة استراتيجية تدريب جديدة لتحسين أنظمة إزالة الصدى من الكلام بطريقة غير موجهة باستخدام كلام مصحوب بالصدى فقط. تعتمد معظم الخوارزميات الموجودة على بيانات نظيفة/مصحوبة بالصدى متطابقة، وهي بيانات يصعب الحصول عليها. تستخدم الطريقة معلومات صوتية محدودة (مثل وقت الصدى RT60) لتدريب نظام إزالة الصدى. تُظهر النتائج التجريبية أداءً أكثر اتساقاً مقارنة بأحدث الطرق على مختلف المقاييس الموضوعية.
المشكلة الأساسية: في البيئات الداخلية، تتأثر إشارات الكلام بانعكاسات الجدران وحيود العوائق، مما ينتج عنه ظاهرة الصدى التي تقلل من وضوح التسجيلات الصوتية. يتطلب الأمر تطوير طرق لإزالة الصدى للتخفيف من هذا التأثير.
أهمية المشكلة: يؤثر الصدى بشكل كبير على جودة الكلام والوضوح، مما يتطلب تقنيات فعالة لإزالة الصدى في تطبيقات مثل التعرف على الكلام وأنظمة الاتصالات.
قيود الطرق الموجودة:
تتطلب الطرق التمييزية كميات كبيرة من البيانات المتطابقة (نظيفة، مصحوبة بالصدى)، وهي صعبة الحصول عليها
على الرغم من أن الطرق التوليدية تتطلب إشرافاً أقل، إلا أنها تحتاج إلى بيانات كلام نظيفة، وهي أصعب في الحصول عليها من البيانات المصحوبة بالصدى
طرق مثل MetricGAN-U التي تستخدم الإشارات المصحوبة بالصدى فقط تعتمد على تحسين مقياس واحد، مما يؤدي إلى أداء غير شامل
الدافع البحثي: تطوير طريقة غير موجهة لإزالة الصدى تستخدم كلام مصحوب بالصدى فقط، مع الاستفادة من معلومات صوتية محدودة مثل وقت الصدى للتدريب.
اقتراح إطار عمل التدريب الذاتي للصدى: استخدام مبتكر لنموذج الصدى للإشراف على تدريب الشبكات العصبية العميقة، بدلاً من الإشراف التقليدي القائم على المقاييس
تصميم استراتيجية تدريب مدركة لوقت الصدى: دمج النماذج الصوتية والتعلم العميق، مع الاستفادة من معاملات مثل RT60 لتوجيه التدريب
تحقيق تحسن أداء أكثر اتساقاً: تفوق على طرق الإشراف القائمة على المقاييس على عدة مقاييس موضوعية
توفير تطبيق مفتوح المصدر: نشر الكود والنماذج المدربة مسبقاً والأمثلة لتعزيز إعادة إنتاج البحث
الإدخال: إشارة كلام مصحوبة بالصدى Y
الإخراج: تقدير إشارة الكلام النظيفة Ŝ
القيود: استخدام إشارات مصحوبة بالصدى فقط أثناء التدريب، بدون الحاجة إلى بيانات متطابقة نظيفة/مصحوبة بالصدى
ميزة الاتساق: تتفوق الطريقة المقترحة على أساس SRMR على ثلاثة مقاييس (SISDR و ESTOI و WB-PESQ)
قيود الأساس: يُظهر أساس MetricGAN-U أفضل أداء على مقياس SRMR، لكن الأداء تنخفض على مقاييس أخرى، حتى أقل من الإشارة الأصلية المصحوبة بالصدى
قوة التقدير: تُظهر النسخة العمياء أداءً مشابهاً تقريباً للنسخة الضعيفة، مما يشير إلى قوة الطريقة تجاه أخطاء تقدير RT60
قابلية تكيف النموذج: يُظهر BiLSTM انخفاضاً أصغر في الأداء من الإشراف الكامل إلى الضعيف، ربما لأنه يعالج فقط أقنعة السعة، وهو أقل حساسية لاضطرابات الطور
تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة، بما في ذلك:
الأساس النظري الكلاسيكي لنموذج Polack للصدى
طرق إزالة الصدى التقليدية مثل WPE
أحدث الطرق غير الموجهة مثل MetricGAN-U
نماذج تحسين الكلام المتقدمة مثل FullSubNet
الخوارزميات ذات الصلة لتقدير معاملات الصدى الأعمى
تقترح هذه الورقة إطار عمل مبتكراً غير موجه لإزالة الصدى من الكلام، من خلال دمج ذكي للنمذجة الصوتية والتعلم العميق، وتحقيق توازن جيد بين الجدوى العملية والأداء. على الرغم من وجود فجوة مقارنة بطرق الإشراف الكامل، إلا أنها توفر حلاً قيماً لحل مشكلة صعوبة الحصول على البيانات في التطبيقات العملية.