2025-11-17T01:43:13.245415

Target speaker anonymization in multi-speaker recordings

Tomashenko, Yamagishi, Wang et al.

Most of the existing speaker anonymization research has focused on single-speaker audio, leading to the development of techniques and evaluation metrics optimized for such condition. This study addresses the significant challenge of speaker anonymization within multi-speaker conversational audio, specifically when only a single target speaker needs to be anonymized. This scenario is highly relevant in contexts like call centers, where customer privacy necessitates anonymizing only the customer's voice in interactions with operators. Conventional anonymization methods are often not suitable for this task. Moreover, current evaluation methodology does not allow us to accurately assess privacy protection and utility in this complex multi-speaker scenario. This work aims to bridge these gaps by exploring effective strategies for targeted speaker anonymization in conversational audio, highlighting potential problems in their development and proposing corresponding improved evaluation methodologies.

academic

إخفاء هوية المتحدث المستهدف في التسجيلات متعددة المتحدثين

المعلومات الأساسية

معرّف الورقة: 2510.09307
العنوان: إخفاء هوية المتحدث المستهدف في التسجيلات متعددة المتحدثين
المؤلفون: ناتاليا توماشينكو¹، جونيتشي ياماغيشي²، شين وانغ²، يون ليو²، إيمانويل فينسينت¹
المؤسسات: ¹جامعة لورين، المركز الوطني للبحث العلمي، إينريا، لوريا، فرنسا؛ ²المعهد الوطني للمعلوماتية، طوكيو، اليابان
التصنيف: eess.AS (معالجة الصوت والكلام)، cs.CL (اللسانيات الحاسوبية)، cs.CR (التشفير والأمان)
تاريخ النشر: 10 أكتوبر 2025 (نسخة arXiv التمهيدية)
رابط الورقة: https://arxiv.org/abs/2510.09307

الملخص

ركزت الأبحاث الحالية حول إخفاء هوية المتحدث بشكل أساسي على الصوت أحادي المتحدث، مما أدى إلى تحسين التقنيات ومقاييس التقييم لهذه الحالة المحددة. يعالج هذا البحث التحديات الكبيرة لإخفاء هوية المتحدث في تسجيلات الحوار متعددة المتحدثين، خاصة في السيناريوهات التي يتطلب فيها إخفاء هوية متحدث واحد فقط. يعتبر هذا السيناريو ذا صلة عالية في بيئات مثل مراكز الاتصالات، حيث يتعين حماية خصوصية العملاء من خلال إخفاء هوية صوت العميل فقط أثناء التفاعل مع موظف الاستقبال. غالباً ما تكون طرق الإخفاء التقليدية غير مناسبة لهذه المهمة. علاوة على ذلك، لا تستطيع طرق التقييم الحالية تقييم حماية الخصوصية والفائدة العملية بدقة في هذه السيناريوهات المعقدة متعددة المتحدثين. يهدف هذا العمل إلى سد هذه الفجوات من خلال استكشاف استراتيجيات فعالة لإخفاء هوية المتحدث المستهدف في الحوار الصوتي، مع تسليط الضوء على المشاكل المحتملة في تطويره واقتراح طرق تقييم محسّنة.

السياق البحثي والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية للبحث حول إخفاء هوية انتقائي لمتحدث مستهدف محدد في تسجيلات الحوار متعددة المتحدثين، وهي مهمة جديدة وتحديية بطبيعتها. تم تصميم تقنيات إخفاء هوية المتحدث التقليدية بشكل أساسي للصوت أحادي المتحدث، وغير قادرة على التعامل الفعال مع احتياجات الإخفاء الانتقائي في السيناريوهات متعددة المتحدثين.

الأهمية والقيمة التطبيقية

متطلبات الامتثال القانوني: مع تطبيق لوائح حماية الخصوصية مثل GDPR، أصبحت حماية خصوصية بيانات الصوت حاسمة الأهمية
السيناريوهات التطبيقية الفعلية: في بيئات مثل مراكز الاتصالات والاستشارات الطبية، يكون من الضروري حماية خصوصية العملاء مع الحفاظ على معلومات موظفي الخدمة
التحديات التقنية: تحتوي بيانات الصوت على معلومات شخصية غنية (العمر والجنس والحالة الصحية وحالة المشاعر وغيرها)، مما يتطلب حماية الخصوصية مع الحفاظ على محتوى اللغة

قيود الطرق الموجودة

القيود التقنية: لا تستطيع طرق الإخفاء الموجودة استهداف متحدثين محددين بشكل انتقائي في الصوت المختلط
نقص التقييم: غياب مقاييس تقييم حماية الخصوصية والفائدة العملية المخصصة للسيناريوهات متعددة المتحدثين
القيود التطبيقية: تؤدي الطرق التقليدية إلى أداء ضعيفة في الكلام المتداخل والسيناريوهات الحوارية المعقدة

المساهمات الأساسية

اقتراح إطار عمل إخفاء هوية المتحدث المستهدف (TSA): أول معالجة منهجية للإخفاء الانتقائي في الحوار متعدد المتحدثين
تطوير طريقة تقييم شاملة: إنشاء نظام تقييم شامل لحماية الخصوصية والفائدة العملية في سيناريوهات الإخفاء متعددة المتحدثين
التحقق التجريبي والتحليل: إجراء تقييم تجريبي شامل بناءً على طريقتين متقدمتين لاستخراج المتحدث المستهدف
تحديد التحديات الرئيسية: تحليل متعمق للقيود والتحديات التقنية المتأصلة في هذه المهمة، مما يوفر إرشادات للبحث المستقبلي

شرح الطريقة

تعريف المهمة

الإدخال: إشارة صوتية مختلطة تحتوي على عدة متحدثين
الإخراج: صوت مختلط مع إخفاء هوية المتحدث المستهدف فقط
القيود: الحفاظ على الكلام الأصلي للمتحدثين غير المستهدفين، والحفاظ على الفهم العام والفائدة العملية للحوار

معمارية النموذج

تصميم إطار عمل TSA

يستخدم TSA نهج خط أنابيب من ثلاث خطوات:

استخراج المتحدث المستهدف (TSE):
- استخدام متجهات تضمين المتحدث المدربة مسبقاً لتحديد المتحدث المستهدف
- تقدير قناع ناعم معقد لفصل الطيف الزمني-التكراري للمتحدث المستهدف
- استخراج مقاطع الكلام للمتحدث المستهدف من الصوت المختلط
إخفاء هوية المتحدث:
- تطبيق إخفاء الهوية فقط على كلام المتحدث المستهدف المستخرج
- استخدام نظام إخفاء الهوية بناءً على ميزات زجاجة الاختناق الكمية المتجهة (VQ-BN)
- تجميع الكلام المخفي الهوية من خلال شبكة HiFi-GAN
إعادة دمج الكلام:
- دمج كلام المتحدث المستهدف المخفي الهوية مع الكلام الأصلي للمتحدثين غير المستهدفين
- توليد الصوت المختلط المخفي الهوية جزئياً النهائي

نماذج استخراج المتحدث المستهدف

TSE المستند إلى Conformer:

دمج طبقات الالتفاف وآليات الانتباه الذاتي لمعالجة طيف STFT
إعادة بناء الأجزاء الحقيقية والخيالية من طيف STFT للمتحدث المستهدف
دمج تضمينات المتحدث لتحديد والتركيز على المتحدث المستهدف

WeSep BSRNN TSE:

تقسيم صريح للطيف الصوتي إلى نطاقات متعددة
نمذجة دقيقة للميزات الطيفية الفريدة لكل نطاق
بناءً على معمارية شبكة عصبية متكررة مقسمة حسب النطاق

نقاط الابتكار التقني

إطار عمل رائد: أول حل شامل لإخفاء هوية المتحدث المستهدف في السيناريوهات متعددة المتحدثين
التصميم المعياري: فصل وحدات TSE والإخفاء، مما يسهل التحسين والاستبدال
ابتكار نظام التقييم: إدخال مقاييس جديدة مثل tcpWER، لتقييم شامل لحماية الخصوصية والفائدة العملية
نمذجة المهاجم: الأخذ في الاعتبار سيناريو المهاجم شبه المطلع، مما يوفر تقييم خصوصية أكثر واقعية

إعداد التجارب

مجموعات البيانات

SparseLibri2Mix: مجموعة بيانات متعددة المتحدثين مبنية على مجموعة فرعية LibriSpeech test-clean
شروط التداخل: 5 درجات مختلفة من التداخل (20%، 40%، 60%، 80%، 100%)
حجم البيانات: 500 ملف مختلط لكل حالة، إجمالي 2500 ملف (حوالي 5 ساعات من الكلام)
عدد المتحدثين: 40 متحدثاً، حيث يكون المتحدث الأول هو المتحدث المستهدف

مقاييس التقييم

تقييم حماية الخصوصية

معدل الخطأ المتساوي (EER): تقييم فعالية الإخفاء باستخدام نظام التحقق التلقائي من المتحدث (ASV)
نموذج المهاجم: مهاجم شبه مطلع، يمكنه الوصول إلى نظام الإخفاء وبيانات التدريب

تقييم الفائدة العملية

المقياس الرئيسي: معدل خطأ الكلمات بأقل تبديل مقيد بالوقت (tcpWER)
المقاييس المساعدة:
- معدل خطأ فصل المتحدثين (DER)
- معدل خطأ الكلمات (WER) لنظام التعرف على الكلام التلقائي للمتحدث المستهدف
- نسبة تشويه الإشارة المقياسة الثابتة (SI-SDR)

الطرق المقارنة

نظام الإخفاء: نظام الخط الأساسي B5 من تحدي VoicePrivacy 2024
نماذج TSE: TSE المستند إلى Conformer مقابل WeSep BSRNN TSE
نماذج التقييم: نظام ASV من ECAPA-TDNN، نظام ASR من DiCoW

نتائج التجارب

النتائج الرئيسية

مقارنة أداء نماذج TSE

معدل التداخل (%)	20	40	60	80	100	المتوسط
Conformer TSE	17.9	15.8	14.6	14.0	14.0	15.3
WeSep BSRNN TSE	18.6	17.5	17.2	16.7	16.2	17.2

فعالية حماية الخصوصية

سيناريو أحادي المتحدث: ارتفاع EER من 3.0% إلى 32.4% بعد الإخفاء
سيناريو متعدد المتحدثين:
- Conformer TSE: متوسط EER 36.4%
- WeSep BSRNN TSE: متوسط EER 36.9%
تحسن الخصوصية: ارتفاع بنسبة 12-14% مقارنة بالسيناريو أحادي المتحدث

الحفاظ على الفائدة العملية

نتائج tcpWER:
- Conformer TSE: متوسط 17.8%
- WeSep BSRNN TSE: متوسط 14.6% (أفضل)
نتائج DER: WeSep BSRNN متفوق على Conformer في جميع شروط التداخل

التجارب الاستئصالية

تأثير جودة TSE

استخراج الإشارة الأصلية: تؤدي عملية TSE إلى انخفاض كبير نسبي في EER و WER مقارنة بالإشارة المختلطة الأصلية
تأثير الإخفاء: يزيد الإخفاء من WER بشكل إضافي، بشكل أساسي بسبب أخطاء الإدراج الناجمة عن الإشارات المتبقية من المتحدثين غير المستهدفين
تأثير درجة التداخل: مع زيادة درجة التداخل، تنخفض أداء TSE، لكن فعالية حماية الخصوصية تبقى مستقرة نسبياً

تحليل استراتيجية المهاجم

اختيار الإشارة المرجعية: تكون فعالية الهجوم باستخدام الإشارة المرجعية الأصلية أفضل من استخدام الإشارة المرجعية المخفية الهوية
اتساق نموذج TSE: يكون تأثير الهجوم أفضل عندما يستخدم المهاجم نفس نموذج TSE المستخدم من قبل المستخدم

النتائج التجريبية

TSE هو الاختناق الحرج: تؤثر جودة TSE بشكل مباشر على حماية الخصوصية والفائدة العملية النهائية
تحديات الكلام المتداخل: تنخفض أداء TSE بشكل واضح في ظروف معدل التداخل العالي
مشكلة أخطاء الإدراج: تؤدي الإشارات المتبقية من المتحدثين غير المستهدفين إلى زيادة أخطاء الإدراج في ASR
المقايضة بين الخصوصية والفائدة العملية: توجد مقايضة متأصلة بين حماية الخصوصية والفائدة العملية للكلام

الأعمال ذات الصلة

أبحاث إخفاء هوية المتحدث

طرق معالجة الإشارات: طرق التحويل البسيطة مثل معاملات McAdams وتحويل الملعب
طرق تحويل الكلام العصبية: تقنيات الإخفاء القائمة على تعلم التمثيل المفكك
تحديات VoicePrivacy: دفعت تطور تقنيات إخفاء هوية المتحدث أحادي المتحدث

استخراج المتحدث المستهدف

طرق التعلم العميق: تقنيات فصل الكلام القائمة على الشبكات العصبية العميقة
آليات الانتباه: استخدام آليات الانتباه الموجهة بتضمينات المتحدث
تقنية تقسيم النطاق: طرق معالجة المجال المتقدمة مثل BSRNN

أبحاث السيناريوهات متعددة المتحدثين

الأبحاث الموجودة حول إخفاء هوية المتحدث متعددة المتحدثين محدودة جداً، وهذه الورقة عمل رائد في هذا المجال.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

الجدوى التقنية: يمكن لإطار عمل TSA تحقيق إخفاء هوية انتقائي للمتحدث المستهدف في السيناريوهات متعددة المتحدثين
المقايضات الأداء: توجد مقايضات بين حماية الخصوصية وجودة الكلام والتعقيد الحسابي
أهمية التقييم: تعتبر المقاييس الجديدة ضرورية لتقييم دقيق لفعالية الإخفاء متعدد المتحدثين
مجال التحسين: لا تزال الطرق الحالية بحاجة إلى تحسينات كبيرة في الحفاظ على الفائدة العملية

القيود

الاعتماد على TSE: تعتمد أداء الطريقة بشكل كبير على جودة وحدة TSE
التعقيد الحسابي: يزيد خط الأنابيب من ثلاث خطوات من التعقيد الحسابي والحمل الحسابي
انخفاض الفائدة العملية: يوجد انخفاض واضح في tcpWER مقارنة بالصوت الأصلي
قيود مجموعة البيانات: تم إجراء التجارب فقط على مجموعات بيانات محاكاة، مع نقص التحقق على بيانات الحوار الحقيقية

الاتجاهات المستقبلية

التدريب من طرف إلى طرف: التدريب المشترك لوحدات TSE والإخفاء لتحسين الأداء الإجمالي
تحسين TSE: تطوير نماذج TSE متخصصة محسّنة لمهمة الإخفاء
المعالجة في الوقت الفعلي: استكشاف حلول TSA في الوقت الفعلي أو القريب من الوقت الفعلي
الإخفاء متعدد الأنماط: دمج المعلومات البصرية لحماية الخصوصية متعددة الأنماط

التقييم المتعمق

المميزات

ابتكار قوي: أول معالجة منهجية لمشكلة الإخفاء الانتقائي متعدد المتحدثين، تملأ فجوة بحثية مهمة
طريقة شاملة: توفير حل شامل من إطار العمل التقني إلى طرق التقييم
تجارب كافية: تجارب مقارنة شاملة مع نماذج TSE متعددة وشروط تداخل متعددة
تحليل متعمق: تحليل تفصيلي لمساهمة كل وحدة وقيود النظام
الأهمية العملية: حل احتياجات ملحة في تطبيقات فعلية مثل مراكز الاتصالات والرعاية الطبية

أوجه القصور

قيود الأداء: انخفاض ملحوظ في tcpWER مقارنة بالصوت الأصلي، مع فائدة عملية تحتاج إلى تحسين
الكفاءة الحسابية: التعقيد الحسابي العالي لخط الأنابيب من ثلاث خطوات، غير مناسب للتطبيقات الفعلية
قيود البيانات: نقص التحقق على بيانات الحوار الحقيقية
نموذج المهاجم: نموذج المهاجم نسبياً بسيط، لم يأخذ في الاعتبار استراتيجيات هجوم أكثر تعقيداً
تقييم الخصوصية: نتيجة EER بنسبة 36-37% تشير إلى وجود مخاطر تسرب خصوصية متبقية

التأثير

المساهمة الأكاديمية: فتح اتجاه بحثي جديد في إخفاء هوية المتحدث المستهدف متعدد المتحدثين
القيمة العملية: توفير حلول حماية الخصوصية لصناعات مثل مراكز الاتصالات والرعاية الطبية
دفع التكنولوجيا: تعزيز التطور المتكامل لتقنيات TSE وإخفاء الكلام
وضع المعايير: توفير مرجع لوضع معايير التقييم والمعايير ذات الصلة

السيناريوهات المطبقة

مراكز الاتصالات: حماية خصوصية العملاء مع الحفاظ على القدرة على تحليل جودة الخدمة
الاستشارات الطبية: إخفاء هوية كلام المريض لأغراض البحث الطبي والتدريب
التسجيلات القانونية: معالجة تسجيلات المحكمة لحماية خصوصية الأطراف
التدريب التعليمي: إخفاء هوية كلام الطلاب لأغراض التدريس والبحث

المراجع

تستشهد هذه الورقة بـ 31 مرجعاً ذا صلة، تغطي مجالات متعددة بما في ذلك حماية خصوصية الكلام وإخفاء هوية المتحدث واستخراج المتحدث المستهدف والتعرف التلقائي على الكلام، مما يوفر أساساً نظرياً قوياً للبحث.

التقييم الشامل: هذه ورقة بحثية عالية الجودة تقدم مساهمات رائدة في مشكلة مهمة وتحديية وهي حماية خصوصية الكلام متعددة المتحدثين. على الرغم من وجود مجال للتحسين في الأداء التقنية، فإن تصميم الإطار المبتكر وطرق التقييم الشاملة والتحليل المتعمق توفر أساساً مهماً للبحث اللاحق في هذا المجال.