2025-11-16T01:19:12.319847

Content Anonymization for Privacy in Long-form Audio

Aggazzotti, Garg, Cai et al.
Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.
academic

लंबे रूप के ऑडियो में गोपनीयता के लिए सामग्री गुमनामीकरण

बुनियादी जानकारी

  • पेपर आईडी: 2510.12780
  • शीर्षक: Content Anonymization for Privacy in Long-form Audio
  • लेखक: क्रिस्टीना अग्गाज़ोटी, आशी गर्ग, ज़ेक्सिन काई, निकोलस एंड्रूज़ (जॉन्स हॉपकिंस विश्वविद्यालय)
  • वर्गीकरण: cs.SD (ध्वनि), cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन समय: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.12780

सारांश

मौजूदा वाक् गुमनामीकरण तकनीकें VoicePrivacy Challenge जैसे बेंचमार्क परीक्षणों में छोटे, अलग-थलग वाक्यांशों में वक्ता की ध्वनिक पहचान को सफलतापूर्वक छिपाती हैं। हालांकि, व्यावहारिक अनुप्रयोगों में, वाक्यांश शायद ही कभी अकेले दिखाई देते हैं: साक्षात्कार, टेलीफोन कॉल और बैठकों जैसे क्षेत्रों में लंबे रूप का ऑडियो सामान्य है। इन परिस्थितियों में, एक ही वक्ता से कई वाक्यांश उपलब्ध हैं, जो अधिक गोपनीयता जोखिम प्रस्तुत करते हैं: हमलावर व्यक्ति की शब्दावली, व्याकरण और अभिव्यक्ति के तरीकों का उपयोग करके उन्हें फिर से पहचान सकते हैं, भले ही उनकी आवाज़ पूरी तरह से छिपी हुई हो। इस जोखिम को संबोधित करने के लिए, यह पेपर नई सामग्री गुमनामीकरण विधियों का प्रस्ताव करता है। यह विधि ASR-TTS पाइपलाइन में प्रतिलेखित पाठ को संदर्भ-जागरूक तरीके से फिर से लिखती है, वक्ता-विशिष्ट शैली को समाप्त करते हुए शब्दार्थ को संरक्षित करती है। अनुसंधान लंबे रूप के टेलीफोन वार्तालाप सेटिंग में सामग्री-आधारित हमलों की प्रभावशीलता को प्रदर्शित करता है, फिर दिखाता है कि प्रस्तावित सामग्री-आधारित गुमनामीकरण विधि वाक् उपयोगिता को बनाए रखते हुए इस जोखिम को कैसे कम करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मौजूदा वाक् गुमनामीकरण तकनीकें मुख्य रूप से व्यक्तिगत वाक्यांश स्तर पर ध्वनिक पहचान छिपाने पर केंद्रित हैं, लेकिन लंबे रूप के ऑडियो परिदृश्यों में महत्वपूर्ण चुनौतियों का सामना करती हैं:

  1. लंबे रूप के ऑडियो की व्यापकता: साक्षात्कार, टेलीफोन कॉल, बैठकों आदि जैसे व्यावहारिक अनुप्रयोगों में, ऑडियो में आमतौर पर एक ही वक्ता के कई वाक्यांश होते हैं
  2. भाषाई सामग्री जैविक विशेषता साइड-चैनल के रूप में: हमलावर वक्ता की शब्दावली चयन, व्याकरण संरचना, अभिव्यक्ति की आदतों आदि भाषाई विशेषताओं का उपयोग करके पहचान कर सकते हैं
  3. मौजूदा विधियों की सीमाएं: केवल ध्वनिक संकेत के गुमनामीकरण पर ध्यान केंद्रित करते हैं, भाषाई सामग्री में पहचान की जानकारी को नज़रअंदाज़ करते हैं

अनुसंधान का महत्व

  • गोपनीयता सुरक्षा की आवश्यकता: वाक् डेटा अनुप्रयोगों में वृद्धि के साथ, वक्ता की पहचान की सुरक्षा तेजी से महत्वपूर्ण हो गई है
  • व्यावहारिक अनुप्रयोग परिदृश्य: मौजूदा बेंचमार्क परीक्षण और व्यावहारिक अनुप्रयोगों के बीच अंतराल, लंबे रूप के ऑडियो की विशेषताओं पर विचार करने की आवश्यकता है
  • बहु-मोडल खतरे: हमलावर एक साथ ध्वनिक और भाषाई विशेषताओं का उपयोग कर सकते हैं, व्यापक सुरक्षा की आवश्यकता है

मौजूदा विधियों की सीमाएं

  1. एकल-मोडल सुरक्षा: केवल ध्वनिक विशेषताओं को संभालते हैं, भाषाई सामग्री को नज़रअंदाज़ करते हैं
  2. सरल PII प्रसंस्करण: केवल स्पष्ट व्यक्तिगत पहचान की जानकारी को हटाते हैं, भाषाई शैली को संभालते नहीं हैं
  3. वाक्यांश-स्तरीय प्रसंस्करण: लंबे रूप के ऑडियो में प्रवचन संरचना के विचार की कमी

मुख्य योगदान

  1. पहला व्यवस्थित अध्ययन: लंबे रूप के ऑडियो में सामग्री-आधारित हमलों के विरुद्ध वाक् गुमनामीकरण का पहला व्यवस्थित मूल्यांकन
  2. संदर्भ-जागरूक पुनर्लेखन विधि: स्लाइडिंग विंडो-आधारित बहु-वाक्यांश संयुक्त पुनर्लेखन तकनीक का प्रस्ताव, संवाद संदर्भ पर विचार करते हुए
  3. गोपनीयता-उपयोगिता व्यापार-बंद का परिमाणीकरण: आधुनिक जनरेटिव मॉडल और पहचान प्रणालियों का उपयोग करके गोपनीयता सुरक्षा और व्यावहारिकता के बीच व्यापार-बंद को परिमाणित करते हैं
  4. बहु-मॉडल तुलना: API मॉडल (GPT-4o-mini, GPT-5) और स्थानीय मॉडल (Gemma-3-4B) के प्रदर्शन की तुलना
  5. व्यापक मूल्यांकन ढांचा: गोपनीयता सुरक्षा, सामग्री विश्वसनीयता, ऑडियो प्राकृतिकता आदि सहित बहु-आयामी मूल्यांकन प्रणाली की स्थापना

विधि विवरण

कार्य परिभाषा

दिए गए लंबे रूप के ऑडियो रिकॉर्डिंग X=(u1,u2,...,uN)X = (u_1, u_2, ..., u_N) (स्रोत वक्ता ss से), लक्ष्य एक गुमनाम संस्करण X=g(X)X' = g(X) उत्पन्न करना है, जो ss के लिए जिम्मेदार न हो। सफल गुमनामीकरण के लिए हमलावर की समान त्रुटि दर (EER) को 50% (यादृच्छिक अनुमान स्तर) तक पहुंचाने की आवश्यकता है।

मॉडल आर्किटेक्चर

ASR-TTS गुमनामीकरण पाइपलाइन

  1. ASR चरण: मूल ऑडियो को पाठ में प्रतिलेखित करने के लिए Whisper-medium का उपयोग करते हैं
  2. सामग्री गुमनामीकरण चरण: प्रतिलेखित पाठ को पुनर्लेखन प्रसंस्करण के अधीन करते हैं
  3. TTS चरण: छद्म लक्ष्य वक्ता एम्बेडिंग का उपयोग करके नई वाक् संश्लेषित करते हैं

सामग्री गुमनामीकरण विधि

1. वाक्यांश-दर-वाक्यांश पुनर्लेखन (GPT-4o-mini)

  • प्रत्येक वाक्यांश को स्वतंत्र रूप से संभालते हैं
  • छोटे वाक्यांश प्रसंस्करण के लिए उपयुक्त

2. खंड पुनर्लेखन (Gemma-3-4B, GPT-5)

  • कई वाक्यांशों (16 वाक्यांश या लगभग 300 टोकन) में फैली पाठ को संभालते हैं
  • व्यापक प्रवचन पैटर्न को पकड़ने और बदलने में सक्षम
  • संदर्भ प्रदान करने के लिए स्लाइडिंग विंडो का उपयोग करते हैं (N=8 पूर्व वाक्यांश)

पुनर्लेखन रणनीति

  • PII प्रतिस्थापन: व्यक्तिगत पहचान की जानकारी को काल्पनिक लेकिन लिंग-सुसंगत जानकारी से बदलते हैं
  • शैली परिवर्तन: वक्ता विशेषताओं को समाप्त करने के लिए भाषाई शैली को संशोधित करते हैं
  • लंबाई समायोजन: सामग्री को संपीड़ित करते हैं और वाक्यांश की लंबाई बदलते हैं
  • संदर्भ-जागरूक: पुनर्लेखन के लिए संवाद इतिहास पर विचार करते हैं

तकनीकी नवाचार

  1. बहु-वाक्यांश संयुक्त पुनर्लेखन: पारंपरिक एकल-वाक्यांश प्रसंस्करण सीमा को तोड़ते हैं, प्रवचन संरचना पर विचार करते हैं
  2. संदर्भ विंडो तंत्र: अधिक सटीक पुनर्लेखन के लिए संवाद इतिहास का उपयोग करते हैं
  3. स्थानीयकरण समाधान: गोपनीयता सुरक्षा और व्यावहारिकता दोनों प्रदान करने वाले स्थानीय मॉडल विकल्प प्रदान करते हैं
  4. बहु-आयामी अनुकूलन: गोपनीयता सुरक्षा, शब्दार्थ विश्वसनीयता और पहचान परिहार पर एक साथ विचार करते हैं

प्रायोगिक सेटअप

डेटासेट

  • Fisher Speech Corpus: लगभग 2000 घंटे की संवाद टेलीफोन वाक् शामिल है
  • प्रायोगिक सेटअप: "कठिन" सेटिंग अपनाते हैं (1944 परीक्षण)
    • सकारात्मक नमूने (959): एक ही वक्ता की विभिन्न विषय वार्तालाप
    • नकारात्मक नमूने (985): विभिन्न वक्ताओं की समान विषय वार्तालाप
  • VoxCeleb2: छद्म लक्ष्य वक्ता एम्बेडिंग उत्पन्न करने के लिए

मूल्यांकन मेट्रिक्स

गोपनीयता सुरक्षा मेट्रिक्स

  • समान त्रुटि दर (EER): हमलावर के लिए एक ही वक्ता और विभिन्न वक्ताओं की वाक् को अलग करने की त्रुटि दर
  • लक्ष्य: EER = 50% (यादृच्छिक अनुमान स्तर)

व्यावहारिकता मेट्रिक्स

  • UTMOS: वाक् प्राकृतिकता स्कोर (1-5 स्कोर) की स्वचालित भविष्यवाणी
  • शब्दार्थ समानता:
    • लालची संरेखण स्कोर (GAS)
    • गतिशील समय विकृति समानता (DTW-Sim)

पहचान योग्यता मेट्रिक्स

  • संश्लेषित पाठ पहचान: Binoculars डिटेक्टर का उपयोग करते हैं
  • संश्लेषित वाक् पहचान: SSL-AASIST डिटेक्टर का उपयोग करते हैं

तुलनात्मक विधियां

  1. केवल ऑडियो गुमनामीकरण: मानक ASR-TTS पाइपलाइन, कोई सामग्री संशोधन नहीं
  2. केवल सामग्री गुमनामीकरण: सामग्री को फिर से लिखते हैं लेकिन मूल आवाज़ को बनाए रखते हैं
  3. ऑडियो + सामग्री गुमनामीकरण: सामग्री पुनर्लेखन और आवाज़ गुमनामीकरण दोनों करते हैं

हमला मॉडल

  • वाक् हमला: WavLM-Base वक्ता सत्यापन मॉडल
  • सामग्री हमला: LUAR (Learning Universal Authorship Representations) मॉडल

प्रायोगिक परिणाम

मुख्य परिणाम

गोपनीयता सुरक्षा प्रभाव

  1. सामग्री-आधारित हमले का खतरा: वाक्यांशों की संख्या बढ़ने के साथ, सामग्री हमले का EER लगभग 0.4 से 0.1 तक गिरता है, भाषाई सामग्री की पहचान क्षमता को साबित करता है
  2. गुमनामीकरण प्रभाव: सभी पुनर्लेखन विधियां EER को महत्वपूर्ण रूप से बढ़ाती हैं, सामग्री हमले को यादृच्छिक अनुमान स्तर के करीब लाती हैं
  3. मॉडल तुलना: खंड पुनर्लेखन (GPT-5, Gemma3-4B) वाक्यांश-दर-वाक्यांश पुनर्लेखन (GPT4o-mini) से अधिक प्रभावी है

व्यावहारिकता संरक्षण

  1. ऑडियो प्राकृतिकता: गुमनाम वाक् UTMOS स्कोर 3.14 है, मूल रिकॉर्डिंग के 2.09 से अधिक है
  2. शब्दार्थ विश्वसनीयता:
    • GPT-5: GAS=0.699, DTW-Sim=0.739
    • Gemma3-4B: GAS=0.648, DTW-Sim=0.582
    • GPT4o-mini: GAS=0.678, DTW-Sim=0.702

विलोपन प्रयोग

पुनर्लेखन रणनीति तुलना

  • रूढ़िवादी रणनीति (Gemma3-4Bc): 50% मूल वाक्यांश को संरक्षित करते हैं, पहचान कठिनाई सबसे कम है
  • पूर्ण पुनर्लेखन: मजबूत गोपनीयता सुरक्षा प्रदान करते हैं लेकिन पहचान योग्यता थोड़ी अधिक है

पहचान परिहार विश्लेषण

  • संश्लेषित वाक् पहचान: संश्लेषित पाठ पहचान से अधिक सटीक, विशेष रूप से कम वाक्यांशों में
  • पुनः-प्रतिलेखन प्रभाव: संश्लेषण के बाद पुनः-प्रतिलेखन कुछ मशीन-उत्पन्न निशान को हटा सकता है

केस विश्लेषण

प्रयोग से पता चलता है कि ASR-TTS पाइपलाइन के माध्यम से पुनः-प्रतिलेखन प्रक्रिया स्वाभाविक रूप से कुछ मशीन-उत्पन्न पाठ विशेषताओं को हटा सकती है, जिससे अंतिम गुमनाम पाठ को कृत्रिम रूप से उत्पन्न के रूप में पहचानना अधिक कठिन हो जाता है।

संबंधित कार्य

वाक् गुमनामीकरण

  • VoicePrivacy Challenge: मुख्य रूप से छोटे वाक्यांशों के ध्वनिक गुमनामीकरण पर केंद्रित
  • पारंपरिक विधियां: kNN वाक् रूपांतरण आदि, एकल-वाक्यांश परिदृश्य में अच्छे परिणाम

सामग्री गोपनीयता

  • PII प्रसंस्करण: मौजूदा विधियां मुख्य रूप से नाम, स्थान आदि स्पष्ट पहचानकर्ताओं पर केंद्रित हैं
  • शैली गुमनामीकरण: भाषाई शैली विशेषताओं के व्यवस्थित प्रसंस्करण की कमी

लेखक पहचान

  • पाठ विश्लेषण: शब्दावली चयन, व्याकरण, कार्यात्मक शब्द उपयोग आदि विशेषताओं पर आधारित
  • वाक् प्रतिलेखन: हाल के कार्य ने प्रतिलेखित पाठ में पहचान की जानकारी को साबित किया है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सामग्री खतरा वास्तविक है: लंबे रूप के ऑडियो में भाषाई सामग्री एक महत्वपूर्ण गोपनीयता जोखिम है
  2. पुनर्लेखन सुरक्षा प्रभावी है: LLM-आधारित पुनर्लेखन सामग्री हमलों के विरुद्ध प्रभावी सुरक्षा प्रदान कर सकते हैं
  3. स्थानीय समाधान व्यावहार्य है: छोटे ओपन-सोर्स मॉडल (Gemma-3-4B) API मॉडल के प्रदर्शन के करीब हैं
  4. व्यावहारिकता संरक्षित की जा सकती है: गोपनीयता सुरक्षा प्रदान करते समय वाक् गुणवत्ता और शब्दार्थ पूर्णता को बनाए रखते हैं

सीमाएं

  1. ASR त्रुटि प्रसार: ASR चरण की त्रुटियां अंतिम गुणवत्ता को प्रभावित कर सकती हैं
  2. शब्दार्थ विश्वसनीयता: पुनर्लेखन प्रक्रिया सूक्ष्म शब्दार्थ जानकारी या व्यंग्य टोन को खो सकती है
  3. हमला मॉडल सीमाएं: मुख्य रूप से अनभिज्ञ हमलावरों पर विचार करते हैं, अर्ध-सूचित हमले अधिक प्रभावी हो सकते हैं
  4. अंत-से-अंत की कमी: वर्तमान विधि कैस्केड पाइपलाइन पर निर्भर करती है, अंत-से-अंत समाधान की कमी है

भविष्य की दिशाएं

  1. अंत-से-अंत मॉडल: वाक् और सामग्री गुमनामीकरण को संयुक्त करने वाली अंत-से-अंत प्रणाली विकसित करते हैं
  2. मजबूत पुनर्लेखन: शब्दार्थ विश्वसनीयता और शैली गुमनामीकरण के बीच संतुलन में सुधार करते हैं
  3. मजबूत हमला सुरक्षा: अर्ध-सूचित हमलावरों के विरुद्ध सुरक्षा रणनीति पर अनुसंधान करते हैं
  4. वास्तविक समय प्रसंस्करण: वास्तविक समय परिदृश्यों के लिए उपयुक्त कुशल गुमनामीकरण विधि विकसित करते हैं

गहन मूल्यांकन

शक्तियां

  1. समस्या महत्व: लंबे रूप के ऑडियो गुमनामीकरण में सामग्री खतरे को पहली बार व्यवस्थित रूप से पहचानते और संबोधित करते हैं
  2. विधि नवाचार: संदर्भ-जागरूक बहु-वाक्यांश संयुक्त पुनर्लेखन रणनीति का प्रस्ताव करते हैं
  3. प्रायोगिक पूर्णता:
    • बहु-आयामी मूल्यांकन प्रणाली (गोपनीयता, व्यावहारिकता, पहचान योग्यता)
    • विभिन्न मॉडल और रणनीतियों की तुलना
    • वास्तविक डेटासेट सत्यापन
  4. व्यावहारिक मूल्य: API मॉडल से स्थानीय मॉडल तक पूर्ण समाधान प्रदान करते हैं
  5. अनुसंधान कठोरता: स्थापित हमला मॉडल और मूल्यांकन प्रोटोकॉल अपनाते हैं

कमियां

  1. डेटासेट एकल: मुख्य रूप से Fisher कॉर्पस पर सत्यापित, क्रॉस-डोमेन सामान्यीकरण सत्यापन की कमी
  2. हमला मॉडल सीमाएं: अधिक मजबूत अनुकूली हमलों या बहु-मोडल हमलों पर विचार नहीं करते हैं
  3. कम्प्यूटेशनल लागत विश्लेषण की कमी: विभिन्न विधियों की कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं
  4. उपयोगकर्ता अनुसंधान की कमी: गुमनामीकरण प्रभाव पर वास्तविक उपयोगकर्ताओं के व्यक्तिपरक मूल्यांकन की कमी
  5. दीर्घकालिक सुरक्षा: हमला तकनीक की प्रगति पर सुरक्षा प्रभाव पर विचार नहीं करते हैं

प्रभाव

  1. शैक्षणिक योगदान:
    • लंबे रूप के ऑडियो गुमनामीकरण अनुसंधान में अंतराल को भरते हैं
    • नई मूल्यांकन प्रणाली और बेंचमार्क स्थापित करते हैं
    • बाद के अनुसंधान के लिए महत्वपूर्ण आधार प्रदान करते हैं
  2. व्यावहारिक मूल्य:
    • वाक् डेटा प्रसंस्करण के लिए व्यावहारिक गोपनीयता सुरक्षा समाधान प्रदान करते हैं
    • साक्षात्कार, बैठक रिकॉर्ड आदि अनुप्रयोगों में प्रत्यक्ष मूल्य है
    • संबंधित नियमों के अनुपालन के लिए तकनीकी समर्थन प्रदान करते हैं
  3. पुनरुत्पादनीयता: लेखक कोड और प्रॉम्प्ट को ओपन-सोर्स करने का वचन देते हैं, अनुसंधान पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

लागू परिदृश्य

  1. उच्च गोपनीयता आवश्यकता परिदृश्य: चिकित्सा साक्षात्कार, कानूनी परामर्श, मनोवैज्ञानिक उपचार आदि
  2. व्यावसायिक अनुप्रयोग: ग्राहक सेवा टेलीफोन, बैठक रिकॉर्ड की गोपनीयता सुरक्षा प्रसंस्करण
  3. अनुसंधान डेटा साझाकरण: वाक् कॉर्पस की गोपनीयता-संरक्षित रिलीज़
  4. अनुपालन आवश्यकताएं: GDPR आदि गोपनीयता नियमों के अनुपालन के लिए तकनीकी समर्थन

संदर्भ

यह पेपर 26 संबंधित संदर्भों का हवाला देता है, जो वाक् गुमनामीकरण, सामग्री गोपनीयता, लेखक पहचान आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करते हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं। मुख्य संदर्भ साहित्य में VoicePrivacy Challenge संबंधित कार्य, LUAR लेखक पहचान मॉडल, और हाल के वाक् गुमनामीकरण तकनीक प्रगति शामिल हैं।


समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुसंधान पत्र है जो वाक् गुमनामीकरण क्षेत्र में एक महत्वपूर्ण समस्या को पहचानता और समाधान करता है। विधि नवाचारी, प्रयोग व्यापक, परिणाम प्रभावशाली हैं, और यह शैक्षणिक और औद्योगिक क्षेत्र दोनों के लिए महत्वपूर्ण मूल्य रखता है। हालांकि कुछ सीमाएं हैं, लेकिन यह लंबे रूप के ऑडियो गोपनीयता सुरक्षा के लिए अनुसंधान की एक नई दिशा खोलता है।