Most of the existing speaker anonymization research has focused on single-speaker audio, leading to the development of techniques and evaluation metrics optimized for such condition. This study addresses the significant challenge of speaker anonymization within multi-speaker conversational audio, specifically when only a single target speaker needs to be anonymized. This scenario is highly relevant in contexts like call centers, where customer privacy necessitates anonymizing only the customer's voice in interactions with operators. Conventional anonymization methods are often not suitable for this task. Moreover, current evaluation methodology does not allow us to accurately assess privacy protection and utility in this complex multi-speaker scenario. This work aims to bridge these gaps by exploring effective strategies for targeted speaker anonymization in conversational audio, highlighting potential problems in their development and proposing corresponding improved evaluation methodologies.
- معرّف الورقة: 2510.09307
- العنوان: إخفاء هوية المتحدث المستهدف في التسجيلات متعددة المتحدثين
- المؤلفون: ناتاليا توماشينكو¹، جونيتشي ياماغيشي²، شين وانغ²، يون ليو²، إيمانويل فينسينت¹
- المؤسسات: ¹جامعة لورين، المركز الوطني للبحث العلمي، إينريا، لوريا، فرنسا؛ ²المعهد الوطني للمعلوماتية، طوكيو، اليابان
- التصنيف: eess.AS (معالجة الصوت والكلام)، cs.CL (اللسانيات الحاسوبية)، cs.CR (التشفير والأمان)
- تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv التمهيدية)
- رابط الورقة: https://arxiv.org/abs/2510.09307
ركزت الأبحاث الحالية حول إخفاء هوية المتحدث بشكل أساسي على الصوت أحادي المتحدث، مما أدى إلى تحسين التقنيات ومقاييس التقييم لهذه الحالة المحددة. يعالج هذا البحث التحديات الكبيرة لإخفاء هوية المتحدث في تسجيلات الحوار متعددة المتحدثين، خاصة في السيناريوهات التي يتطلب فيها إخفاء هوية متحدث واحد فقط. يعتبر هذا السيناريو ذا صلة عالية في بيئات مثل مراكز الاتصالات، حيث يتعين حماية خصوصية العملاء من خلال إخفاء هوية صوت العميل فقط أثناء التفاعل مع موظف الاستقبال. غالباً ما تكون طرق الإخفاء التقليدية غير مناسبة لهذه المهمة. علاوة على ذلك، لا تستطيع طرق التقييم الحالية تقييم حماية الخصوصية والفائدة العملية بدقة في هذه السيناريوهات المعقدة متعددة المتحدثين. يهدف هذا العمل إلى سد هذه الفجوات من خلال استكشاف استراتيجيات فعالة لإخفاء هوية المتحدث المستهدف في الحوار الصوتي، مع تسليط الضوء على المشاكل المحتملة في تطويره واقتراح طرق تقييم محسّنة.
تتمحور المشكلة الأساسية للبحث حول إخفاء هوية انتقائي لمتحدث مستهدف محدد في تسجيلات الحوار متعددة المتحدثين، وهي مهمة جديدة وتحديية بطبيعتها. تم تصميم تقنيات إخفاء هوية المتحدث التقليدية بشكل أساسي للصوت أحادي المتحدث، وغير قادرة على التعامل الفعال مع احتياجات الإخفاء الانتقائي في السيناريوهات متعددة المتحدثين.
- متطلبات الامتثال القانوني: مع تطبيق لوائح حماية الخصوصية مثل GDPR، أصبحت حماية خصوصية بيانات الصوت حاسمة الأهمية
- السيناريوهات التطبيقية الفعلية: في بيئات مثل مراكز الاتصالات والاستشارات الطبية، يكون من الضروري حماية خصوصية العملاء مع الحفاظ على معلومات موظفي الخدمة
- التحديات التقنية: تحتوي بيانات الصوت على معلومات شخصية غنية (العمر والجنس والحالة الصحية وحالة المشاعر وغيرها)، مما يتطلب حماية الخصوصية مع الحفاظ على محتوى اللغة
- القيود التقنية: لا تستطيع طرق الإخفاء الموجودة استهداف متحدثين محددين بشكل انتقائي في الصوت المختلط
- نقص التقييم: غياب مقاييس تقييم حماية الخصوصية والفائدة العملية المخصصة للسيناريوهات متعددة المتحدثين
- القيود التطبيقية: تؤدي الطرق التقليدية إلى أداء ضعيفة في الكلام المتداخل والسيناريوهات الحوارية المعقدة
- اقتراح إطار عمل إخفاء هوية المتحدث المستهدف (TSA): أول معالجة منهجية للإخفاء الانتقائي في الحوار متعدد المتحدثين
- تطوير طريقة تقييم شاملة: إنشاء نظام تقييم شامل لحماية الخصوصية والفائدة العملية في سيناريوهات الإخفاء متعددة المتحدثين
- التحقق التجريبي والتحليل: إجراء تقييم تجريبي شامل بناءً على طريقتين متقدمتين لاستخراج المتحدث المستهدف
- تحديد التحديات الرئيسية: تحليل متعمق للقيود والتحديات التقنية المتأصلة في هذه المهمة، مما يوفر إرشادات للبحث المستقبلي
الإدخال: إشارة صوتية مختلطة تحتوي على عدة متحدثين
الإخراج: صوت مختلط مع إخفاء هوية المتحدث المستهدف فقط
القيود: الحفاظ على الكلام الأصلي للمتحدثين غير المستهدفين، والحفاظ على الفهم العام والفائدة العملية للحوار
يستخدم TSA نهج خط أنابيب من ثلاث خطوات:
- استخراج المتحدث المستهدف (TSE):
- استخدام متجهات تضمين المتحدث المدربة مسبقاً لتحديد المتحدث المستهدف
- تقدير قناع ناعم معقد لفصل الطيف الزمني-التكراري للمتحدث المستهدف
- استخراج مقاطع الكلام للمتحدث المستهدف من الصوت المختلط
- إخفاء هوية المتحدث:
- تطبيق إخفاء الهوية فقط على كلام المتحدث المستهدف المستخرج
- استخدام نظام إخفاء الهوية بناءً على ميزات زجاجة الاختناق الكمية المتجهة (VQ-BN)
- تجميع الكلام المخفي الهوية من خلال شبكة HiFi-GAN
- إعادة دمج الكلام:
- دمج كلام المتحدث المستهدف المخفي الهوية مع الكلام الأصلي للمتحدثين غير المستهدفين
- توليد الصوت المختلط المخفي الهوية جزئياً النهائي
TSE المستند إلى Conformer:
- دمج طبقات الالتفاف وآليات الانتباه الذاتي لمعالجة طيف STFT
- إعادة بناء الأجزاء الحقيقية والخيالية من طيف STFT للمتحدث المستهدف
- دمج تضمينات المتحدث لتحديد والتركيز على المتحدث المستهدف
WeSep BSRNN TSE:
- تقسيم صريح للطيف الصوتي إلى نطاقات متعددة
- نمذجة دقيقة للميزات الطيفية الفريدة لكل نطاق
- بناءً على معمارية شبكة عصبية متكررة مقسمة حسب النطاق
- إطار عمل رائد: أول حل شامل لإخفاء هوية المتحدث المستهدف في السيناريوهات متعددة المتحدثين
- التصميم المعياري: فصل وحدات TSE والإخفاء، مما يسهل التحسين والاستبدال
- ابتكار نظام التقييم: إدخال مقاييس جديدة مثل tcpWER، لتقييم شامل لحماية الخصوصية والفائدة العملية
- نمذجة المهاجم: الأخذ في الاعتبار سيناريو المهاجم شبه المطلع، مما يوفر تقييم خصوصية أكثر واقعية
- SparseLibri2Mix: مجموعة بيانات متعددة المتحدثين مبنية على مجموعة فرعية LibriSpeech test-clean
- شروط التداخل: 5 درجات مختلفة من التداخل (20%، 40%، 60%، 80%، 100%)
- حجم البيانات: 500 ملف مختلط لكل حالة، إجمالي 2500 ملف (حوالي 5 ساعات من الكلام)
- عدد المتحدثين: 40 متحدثاً، حيث يكون المتحدث الأول هو المتحدث المستهدف
- معدل الخطأ المتساوي (EER): تقييم فعالية الإخفاء باستخدام نظام التحقق التلقائي من المتحدث (ASV)
- نموذج المهاجم: مهاجم شبه مطلع، يمكنه الوصول إلى نظام الإخفاء وبيانات التدريب
- المقياس الرئيسي: معدل خطأ الكلمات بأقل تبديل مقيد بالوقت (tcpWER)
- المقاييس المساعدة:
- معدل خطأ فصل المتحدثين (DER)
- معدل خطأ الكلمات (WER) لنظام التعرف على الكلام التلقائي للمتحدث المستهدف
- نسبة تشويه الإشارة المقياسة الثابتة (SI-SDR)
- نظام الإخفاء: نظام الخط الأساسي B5 من تحدي VoicePrivacy 2024
- نماذج TSE: TSE المستند إلى Conformer مقابل WeSep BSRNN TSE
- نماذج التقييم: نظام ASV من ECAPA-TDNN، نظام ASR من DiCoW
| معدل التداخل (%) | 20 | 40 | 60 | 80 | 100 | المتوسط |
|---|
| Conformer TSE | 17.9 | 15.8 | 14.6 | 14.0 | 14.0 | 15.3 |
| WeSep BSRNN TSE | 18.6 | 17.5 | 17.2 | 16.7 | 16.2 | 17.2 |
- سيناريو أحادي المتحدث: ارتفاع EER من 3.0% إلى 32.4% بعد الإخفاء
- سيناريو متعدد المتحدثين:
- Conformer TSE: متوسط EER 36.4%
- WeSep BSRNN TSE: متوسط EER 36.9%
- تحسن الخصوصية: ارتفاع بنسبة 12-14% مقارنة بالسيناريو أحادي المتحدث
- نتائج tcpWER:
- Conformer TSE: متوسط 17.8%
- WeSep BSRNN TSE: متوسط 14.6% (أفضل)
- نتائج DER: WeSep BSRNN متفوق على Conformer في جميع شروط التداخل
- استخراج الإشارة الأصلية: تؤدي عملية TSE إلى انخفاض كبير نسبي في EER و WER مقارنة بالإشارة المختلطة الأصلية
- تأثير الإخفاء: يزيد الإخفاء من WER بشكل إضافي، بشكل أساسي بسبب أخطاء الإدراج الناجمة عن الإشارات المتبقية من المتحدثين غير المستهدفين
- تأثير درجة التداخل: مع زيادة درجة التداخل، تنخفض أداء TSE، لكن فعالية حماية الخصوصية تبقى مستقرة نسبياً
- اختيار الإشارة المرجعية: تكون فعالية الهجوم باستخدام الإشارة المرجعية الأصلية أفضل من استخدام الإشارة المرجعية المخفية الهوية
- اتساق نموذج TSE: يكون تأثير الهجوم أفضل عندما يستخدم المهاجم نفس نموذج TSE المستخدم من قبل المستخدم
- TSE هو الاختناق الحرج: تؤثر جودة TSE بشكل مباشر على حماية الخصوصية والفائدة العملية النهائية
- تحديات الكلام المتداخل: تنخفض أداء TSE بشكل واضح في ظروف معدل التداخل العالي
- مشكلة أخطاء الإدراج: تؤدي الإشارات المتبقية من المتحدثين غير المستهدفين إلى زيادة أخطاء الإدراج في ASR
- المقايضة بين الخصوصية والفائدة العملية: توجد مقايضة متأصلة بين حماية الخصوصية والفائدة العملية للكلام
- طرق معالجة الإشارات: طرق التحويل البسيطة مثل معاملات McAdams وتحويل الملعب
- طرق تحويل الكلام العصبية: تقنيات الإخفاء القائمة على تعلم التمثيل المفكك
- تحديات VoicePrivacy: دفعت تطور تقنيات إخفاء هوية المتحدث أحادي المتحدث
- طرق التعلم العميق: تقنيات فصل الكلام القائمة على الشبكات العصبية العميقة
- آليات الانتباه: استخدام آليات الانتباه الموجهة بتضمينات المتحدث
- تقنية تقسيم النطاق: طرق معالجة المجال المتقدمة مثل BSRNN
الأبحاث الموجودة حول إخفاء هوية المتحدث متعددة المتحدثين محدودة جداً، وهذه الورقة عمل رائد في هذا المجال.
- الجدوى التقنية: يمكن لإطار عمل TSA تحقيق إخفاء هوية انتقائي للمتحدث المستهدف في السيناريوهات متعددة المتحدثين
- المقايضات الأداء: توجد مقايضات بين حماية الخصوصية وجودة الكلام والتعقيد الحسابي
- أهمية التقييم: تعتبر المقاييس الجديدة ضرورية لتقييم دقيق لفعالية الإخفاء متعدد المتحدثين
- مجال التحسين: لا تزال الطرق الحالية بحاجة إلى تحسينات كبيرة في الحفاظ على الفائدة العملية
- الاعتماد على TSE: تعتمد أداء الطريقة بشكل كبير على جودة وحدة TSE
- التعقيد الحسابي: يزيد خط الأنابيب من ثلاث خطوات من التعقيد الحسابي والحمل الحسابي
- انخفاض الفائدة العملية: يوجد انخفاض واضح في tcpWER مقارنة بالصوت الأصلي
- قيود مجموعة البيانات: تم إجراء التجارب فقط على مجموعات بيانات محاكاة، مع نقص التحقق على بيانات الحوار الحقيقية
- التدريب من طرف إلى طرف: التدريب المشترك لوحدات TSE والإخفاء لتحسين الأداء الإجمالي
- تحسين TSE: تطوير نماذج TSE متخصصة محسّنة لمهمة الإخفاء
- المعالجة في الوقت الفعلي: استكشاف حلول TSA في الوقت الفعلي أو القريب من الوقت الفعلي
- الإخفاء متعدد الأنماط: دمج المعلومات البصرية لحماية الخصوصية متعددة الأنماط
- ابتكار قوي: أول معالجة منهجية لمشكلة الإخفاء الانتقائي متعدد المتحدثين، تملأ فجوة بحثية مهمة
- طريقة شاملة: توفير حل شامل من إطار العمل التقني إلى طرق التقييم
- تجارب كافية: تجارب مقارنة شاملة مع نماذج TSE متعددة وشروط تداخل متعددة
- تحليل متعمق: تحليل تفصيلي لمساهمة كل وحدة وقيود النظام
- الأهمية العملية: حل احتياجات ملحة في تطبيقات فعلية مثل مراكز الاتصالات والرعاية الطبية
- قيود الأداء: انخفاض ملحوظ في tcpWER مقارنة بالصوت الأصلي، مع فائدة عملية تحتاج إلى تحسين
- الكفاءة الحسابية: التعقيد الحسابي العالي لخط الأنابيب من ثلاث خطوات، غير مناسب للتطبيقات الفعلية
- قيود البيانات: نقص التحقق على بيانات الحوار الحقيقية
- نموذج المهاجم: نموذج المهاجم نسبياً بسيط، لم يأخذ في الاعتبار استراتيجيات هجوم أكثر تعقيداً
- تقييم الخصوصية: نتيجة EER بنسبة 36-37% تشير إلى وجود مخاطر تسرب خصوصية متبقية
- المساهمة الأكاديمية: فتح اتجاه بحثي جديد في إخفاء هوية المتحدث المستهدف متعدد المتحدثين
- القيمة العملية: توفير حلول حماية الخصوصية لصناعات مثل مراكز الاتصالات والرعاية الطبية
- دفع التكنولوجيا: تعزيز التطور المتكامل لتقنيات TSE وإخفاء الكلام
- وضع المعايير: توفير مرجع لوضع معايير التقييم والمعايير ذات الصلة
- مراكز الاتصالات: حماية خصوصية العملاء مع الحفاظ على القدرة على تحليل جودة الخدمة
- الاستشارات الطبية: إخفاء هوية كلام المريض لأغراض البحث الطبي والتدريب
- التسجيلات القانونية: معالجة تسجيلات المحكمة لحماية خصوصية الأطراف
- التدريب التعليمي: إخفاء هوية كلام الطلاب لأغراض التدريس والبحث
تستشهد هذه الورقة بـ 31 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك حماية خصوصية الكلام وإخفاء هوية المتحدث واستخراج المتحدث المستهدف والتعرف التلقائي على الكلام، مما يوفر أساساً نظرياً قوياً للبحث.
التقييم الشامل: هذه ورقة بحثية عالية الجودة تقدم مساهمات رائدة في مشكلة مهمة وتحديية وهي حماية خصوصية الكلام متعددة المتحدثين. على الرغم من وجود مجال للتحسين في الأداء التقنية، فإن تصميم الإطار المبتكر وطرق التقييم الشاملة والتحليل المتعمق توفر أساساً مهماً للبحث اللاحق في هذا المجال.