Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.
- معرّف الورقة البحثية: 2510.12780
- العنوان: Content Anonymization for Privacy in Long-form Audio
- المؤلفون: Cristina Aggazzotti, Ashi Garg, Zexin Cai, Nicholas Andrews (جامعة جونز هوبكنز)
- التصنيف: cs.SD (الصوت)، cs.CL (اللغويات الحسابية)
- تاريخ النشر: 14 أكتوبر 2025 (نسخة أولية من arXiv)
- رابط الورقة: https://arxiv.org/abs/2510.12780
تنجح تقنيات إخفاء الهوية الصوتية الحالية في إخفاء الهوية الصوتية للمتحدثين في الجمل القصيرة والمعزولة في اختبارات معايير مثل تحدي VoicePrivacy. ومع ذلك، في التطبيقات العملية، نادراً ما تظهر الجمل بشكل منفصل: الصوت طويل الشكل شائع في المقابلات والمكالمات الهاتفية والاجتماعات. في هذه الحالات، تتوفر جمل متعددة من نفس المتحدث، مما يشكل خطراً أكبر على الخصوصية: يمكن للمهاجمين استخدام المفردات والقواعد النحوية وأسلوب التعبير الشخصي لإعادة تحديد الهوية، حتى لو تم إخفاء صوتهم بالكامل. لمعالجة هذا الخطر، تقترح هذه الورقة طرقاً جديدة لإخفاء المحتوى. تعيد الطريقة كتابة النص المنقول في خط أنابيب ASR-TTS لإزالة الأسلوب الخاص بالمتحدث مع الحفاظ على المعنى الدلالي. تُظهر الدراسة فعالية الهجمات القائمة على المحتوى ضد الكلام المخفي الهوية في إعدادات المحادثات الهاتفية طويلة الشكل، ثم توضح كيف تخفف طريقة الإخفاء القائمة على المحتوى المقترحة هذا الخطر مع الحفاظ على فائدة الكلام.
تركز تقنيات إخفاء الهوية الصوتية الحالية على إخفاء الهوية الصوتية على مستوى الجملة الفردية، لكنها تواجه تحديات كبيرة في سيناريوهات الصوت طويل الشكل:
- انتشار الصوت طويل الشكل: في التطبيقات العملية مثل المقابلات والمكالمات الهاتفية والاجتماعات، يحتوي الصوت عادة على جمل متعددة من نفس المتحدث
- المحتوى اللغوي كقناة جانبية بيومترية: يمكن للمهاجمين استخدام اختيارات المفردات والبنية النحوية والعادات التعبيرية للمتحدث لتحديد الهوية
- قيود الطرق الحالية: تركز فقط على إخفاء الإشارة الصوتية، متجاهلة معلومات الهوية في المحتوى اللغوي
- احتياجات حماية الخصوصية: مع زيادة تطبيقات بيانات الصوت، أصبح حماية هوية المتحدث أكثر أهمية
- السيناريوهات التطبيقية الفعلية: يوجد فجوة بين اختبارات المعايير الحالية والتطبيقات الفعلية، مما يتطلب النظر في خصوصيات الصوت طويل الشكل
- التهديدات متعددة الأنماط: قد يستخدم المهاجمون الميزات الصوتية واللغوية معاً، مما يتطلب حماية شاملة
- الحماية أحادية الوسيط: معالجة الميزات الصوتية فقط، متجاهلة المحتوى اللغوي
- معالجة معلومات التعريف الشخصية البسيطة: إزالة معلومات التعريف الشخصية الواضحة فقط، دون معالجة أسلوب اللغة
- معالجة على مستوى الجملة: افتقار الاعتبار لبنية الخطاب في الصوت طويل الشكل
- أول دراسة منهجية: أول بحث يقيّم بشكل منهجي الهجمات القائمة على المحتوى ضد إخفاء الهوية الصوتية في الصوت طويل الشكل
- طريقة إعادة الكتابة السياقية: اقتراح تقنية إعادة كتابة مشتركة متعددة الجمل بناءً على نافذة منزلقة، مع مراعاة السياق الحواري
- تقدير التوازن بين الخصوصية والفائدة: استخدام نماذج توليدية حديثة وأنظمة كشف لتقدير التوازن بين حماية الخصوصية والفائدة العملية
- مقارنة متعددة النماذج: مقارنة أداء نماذج API (GPT-4o-mini, GPT-5) والنماذج المحلية (Gemma-3-4B)
- إطار تقييم شامل: إنشاء نظام تقييم متعدد الأبعاد يشمل حماية الخصوصية والدقة المحتوى وطبيعية الصوت
بالنظر إلى تسجيل صوت طويل الشكل X=(u1,u2,...,uN) (من المتحدث المصدر s)، الهدف هو إنتاج نسخة مخفية الهوية X′=g(X) بحيث لا يمكن نسبتها إلى s. يتطلب الإخفاء الناجح للهوية تحقيق معدل الخطأ المتساوي (EER) للمهاجم بنسبة 50% (مستوى التخمين العشوائي).
- مرحلة ASR: استخدام Whisper-medium لنسخ الصوت الأصلي إلى نص
- مرحلة إخفاء المحتوى: إعادة كتابة النص المنقول
- مرحلة TTS: توليف كلام جديد باستخدام تضمينات متحدث هدف وهمي
1. إعادة كتابة الجملة تلو الأخرى (GPT-4o-mini)
- معالجة كل جملة بشكل مستقل
- مناسبة لمعالجة الجمل الأقصر
2. إعادة كتابة القطاعات (Gemma-3-4B, GPT-5)
- معالجة قطاعات نصية تمتد عبر جمل متعددة (16 جملة أو حوالي 300 رمز)
- القدرة على التقاط وتغيير أنماط الخطاب الأوسع
- استخدام نافذة منزلقة توفر السياق (N=8 جمل سابقة)
- استبدال معلومات التعريف الشخصية: استبدال معلومات الهوية الشخصية بمعلومات خيالية متسقة من حيث النوع
- تغيير الأسلوب: تعديل أسلوب اللغة لإزالة خصائص المتحدث
- تعديل الطول: ضغط المحتوى وتغيير طول الجملة
- الوعي السياقي: مراعاة السياق الحواري في إعادة الكتابة
- إعادة كتابة مشتركة متعددة الجمل: تجاوز حدود معالجة الجملة الواحدة التقليدية، مع مراعاة بنية الخطاب
- آلية نافذة السياق: الاستفادة من السياق الحواري لإعادة كتابة أكثر دقة
- الحلول المحلية: توفير خيارات نماذج محلية مفتوحة المصدر تحمي الخصوصية وعملية
- التحسين متعدد الأبعاد: مراعاة حماية الخصوصية والدقة الدلالية والتهرب من الكشف بشكل متزامن
- Fisher Speech Corpus: يحتوي على ما يقرب من 2000 ساعة من الكلام الهاتفي الحواري
- إعداد التجربة: استخدام الإعداد "الصعب" (1944 تجربة)
- العينات الموجبة (959): محادثات مختلفة الموضوع من نفس المتحدث
- العينات السالبة (985): محادثات نفس الموضوع من متحدثين مختلفين
- VoxCeleb2: لتوليد تضمينات متحدث هدف وهمي
- معدل الخطأ المتساوي (EER): معدل خطأ المهاجم في التمييز بين كلام نفس المتحدث والمتحدثين المختلفين
- الهدف: EER = 50% (مستوى التخمين العشوائي)
- UTMOS: تقدير تلقائي لدرجة طبيعية الكلام (1-5 نقاط)
- التشابه الدلالي:
- درجة المحاذاة الجشعة (GAS)
- تشابه الالتواء الديناميكي الزمني (DTW-Sim)
- كشف النص المركب: استخدام كاشف Binoculars
- كشف الكلام المركب: استخدام كاشف SSL-AASIST
- إخفاء الهوية الصوتي فقط: خط أنابيب ASR-TTS قياسي بدون تعديل المحتوى
- إخفاء المحتوى فقط: إعادة كتابة المحتوى مع الحفاظ على الصوت الأصلي
- إخفاء الهوية الصوتي والمحتوى: إجراء إعادة كتابة المحتوى وإخفاء الهوية الصوتي معاً
- هجوم صوتي: نموذج التحقق من المتحدث WavLM-Base
- هجوم قائم على المحتوى: نموذج LUAR (تعلم تمثيلات الأصالة العالمية)
- تهديد الهجمات القائمة على المحتوى: مع زيادة عدد الجمل، ينخفض EER للهجوم القائم على المحتوى من حوالي 0.4 إلى 0.1، مما يثبت قدرة المحتوى اللغوي على تحديد الهوية
- فعالية الإخفاء: جميع طرق إعادة الكتابة تحسن بشكل كبير من EER، مما يجعل الهجوم القائم على المحتوى قريباً من مستوى التخمين العشوائي
- مقارنة النماذج: إعادة الكتابة القطاعية (GPT-5, Gemma3-4B) أكثر فعالية من إعادة الكتابة الجملة تلو الأخرى (GPT4o-mini)
- طبيعية الصوت: درجة UTMOS للكلام المخفي الهوية 3.14، أعلى من التسجيل الأصلي 2.09
- الدقة الدلالية:
- GPT-5: GAS=0.699, DTW-Sim=0.739
- Gemma3-4B: GAS=0.648, DTW-Sim=0.582
- GPT4o-mini: GAS=0.678, DTW-Sim=0.702
- الاستراتيجية المحافظة (Gemma3-4Bc): الحفاظ على 50% من الجمل الأصلية، أقل صعوبة في الكشف
- إعادة الكتابة الكاملة: توفير حماية خصوصية أقوى لكن قابلية كشف أعلى قليلاً
- كشف الكلام المركب: أكثر دقة من كشف النص المركب، خاصة عندما يكون عدد الجمل قليلاً
- تأثير إعادة النسخ: يمكن لعملية إعادة النسخ من خلال خط أنابيب ASR-TTS إزالة بعض ميزات النص المولدة آلياً، مما يجعل النص المخفي الهوية النهائي أصعب في الكشف عنه
تُظهر التجارب أن عملية إعادة النسخ من خلال خط أنابيب ASR-TTS يمكنها إزالة بعض ميزات النص المولدة آلياً بشكل طبيعي، مما يجعل النص المخفي الهوية النهائي أصعب في الكشف عنه كنص مولد بواسطة الآلة.
- تحدي VoicePrivacy: يركز بشكل أساسي على إخفاء الهوية الصوتي للجمل القصيرة
- الطرق التقليدية: تحويل الكلام kNN وغيرها، تعمل بشكل جيد في سيناريوهات الجملة الواحدة
- معالجة معلومات التعريف الشخصية: تركز الطرق الموجودة بشكل أساسي على المعرفات الصريحة مثل الأسماء والأماكن
- إخفاء الأسلوب: افتقار المعالجة المنهجية لميزات أسلوب اللغة
- تحليل النص: بناءً على اختيار المفردات والقواعد النحوية واستخدام الكلمات الوظيفية
- نسخ الكلام: أثبتت الأعمال الحديثة وجود معلومات الهوية في النص المنقول
- وجود تهديد المحتوى: المحتوى اللغوي في الصوت طويل الشكل يشكل خطراً كبيراً على الخصوصية
- فعالية حماية إعادة الكتابة: يمكن لإعادة الكتابة القائمة على نماذج اللغة الكبيرة الدفاع بفعالية ضد الهجمات القائمة على المحتوى
- جدوى الحلول المحلية: النماذج الصغيرة مفتوحة المصدر (Gemma-3-4B) تقترب من أداء نماذج API
- إمكانية الحفاظ على الفائدة: يمكن الحفاظ على جودة الكلام والتكامل الدلالي مع توفير حماية الخصوصية
- انتشار أخطاء ASR: قد تؤثر الأخطاء في مرحلة ASR على الجودة النهائية
- الدقة الدلالية: قد تفقد عملية إعادة الكتابة معلومات دلالية دقيقة أو نبرة سخرية
- قيود نموذج الهجوم: يركز بشكل أساسي على المهاجمين غير المطلعين، قد تكون الهجمات شبه المطلعة أكثر فعالية
- غياب الحل الشامل: تعتمد الطريقة الحالية على خط أنابيب متسلسل، تفتقر إلى حل شامل
- النماذج الشاملة: تطوير أنظمة شاملة تجمع بين إخفاء الهوية الصوتي والمحتوى
- إعادة كتابة قوية: تحسين توازن نموذج إعادة الكتابة بين الدقة الدلالية وإخفاء الأسلوب
- الدفاع ضد الهجمات القوية: البحث عن استراتيجيات الدفاع ضد المهاجمين شبه المطلعين
- المعالجة في الوقت الفعلي: تطوير طرق إخفاء هوية فعالة مناسبة للسيناريوهات الفعلية
- أهمية المشكلة: أول تحديد منهجي وحل لتهديد المحتوى في إخفاء الهوية الصوتي للصوت طويل الشكل
- ابتكار الطريقة: اقتراح استراتيجية إعادة كتابة مشتركة متعددة الجمل مع الوعي السياقي
- كفاية التجارب:
- نظام تقييم متعدد الأبعاد (الخصوصية والفائدة والكشف)
- مقارنة نماذج واستراتيجيات متعددة
- التحقق على مجموعات بيانات حقيقية
- القيمة العملية: توفير حل شامل من نماذج API إلى النماذج المحلية
- الصرامة البحثية: استخدام نماذج هجوم وبروتوكولات تقييم معروفة
- مجموعة بيانات واحدة: التحقق الرئيسي على Fisher Corpus، افتقار التحقق من التعميم عبر المجالات
- قيود نموذج الهجوم: عدم النظر في الهجمات التكيفية الأقوى أو الهجمات متعددة الأنماط
- غياب تحليل التكلفة الحسابية: عدم تحليل تفصيلي للتكلفة الحسابية للطرق المختلفة
- غياب البحث عن المستخدم: افتقار التقييم الذاتي من المستخدمين الحقيقيين لفعالية الإخفاء
- الأمان طويل الأجل: عدم النظر في تأثير تطور تقنيات الهجوم على فعالية الدفاع
- المساهمة الأكاديمية:
- ملء الفجوة البحثية في إخفاء الهوية الصوتي للصوت طويل الشكل
- إنشاء نموذج تقييم جديد ومعايير
- توفير أساس مهم للبحث اللاحق
- القيمة العملية:
- توفير حل عملي لحماية الخصوصية لمعالجة بيانات الصوت
- قيمة مباشرة في تطبيقات المقابلات وتسجيلات الاجتماعات وغيرها
- دعم تقني لامتثال اللوائح ذات الصلة
- القابلية للتكرار: التزام المؤلفين بنشر الكود والتعليمات، مما يسهل تكرار البحث والتوسع
- السيناريوهات عالية الخصوصية: المقابلات الطبية والاستشارات القانونية والعلاج النفسي وغيرها
- التطبيقات التجارية: حماية خصوصية مكالمات خدمة العملاء وتسجيلات الاجتماعات
- مشاركة بيانات البحث: النشر الخاص بالخصوصية لمجموعات بيانات الكلام
- متطلبات الامتثال: دعم تقني لامتثال لوائح الخصوصية مثل GDPR
تستشهد هذه الورقة بـ 26 مرجعاً ذا صلة، تغطي إخفاء الهوية الصوتي وخصوصية المحتوى وتحديد الأصالة وغيرها من المجالات المهمة، مما يوفر أساساً نظرياً قوياً للبحث. تشمل المراجع الرئيسية الأعمال المتعلقة بتحدي VoicePrivacy ونموذج تحديد الأصالة LUAR والتطورات الحديثة في تقنيات إخفاء الهوية الصوتي.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تحدد وتحل مشكلة مهمة في مجال إخفاء الهوية الصوتي. الطريقة مبتكرة والتجارب شاملة والنتائج مقنعة، وتتمتع بقيمة مهمة لكل من الأوساط الأكاديمية والصناعة. على الرغم من وجود بعض القيود، فإنها تفتح اتجاهاً بحثياً جديداً لحماية الخصوصية في الصوت طويل الشكل.