2025-11-20T13:58:15.370121

Personal Attribute Leakage in Federated Speech Models

Al-Ali, Ghavamipour, Caselli et al.

Federated learning is a common method for privacy-preserving training of machine learning models. In this paper, we analyze the vulnerability of ASR models to attribute inference attacks in the federated setting. We test a non-parametric white-box attack method under a passive threat model on three ASR models: Wav2Vec2, HuBERT, and Whisper. The attack operates solely on weight differentials without access to raw speech from target speakers. We demonstrate attack feasibility on sensitive demographic and clinical attributes: gender, age, accent, emotion, and dysarthria. Our findings indicate that attributes that are underrepresented or absent in the pre-training data are more vulnerable to such inference attacks. In particular, information about accents can be reliably inferred from all models. Our findings expose previously undocumented vulnerabilities in federated ASR models and offer insights towards improved security.

academic

संघीय भाषण मॉडल में व्यक्तिगत विशेषता रिसाव

मूल जानकारी

पेपर ID: 2510.13357
शीर्षक: संघीय भाषण मॉडल में व्यक्तिगत विशेषता रिसाव
लेखक: हमदान अल-अली, अली रेजा घवामीपूर, टोमासो कैसेली, फतिह तुर्कमेन, जीरक तलात, हनान अल-दरमाकी
वर्गीकरण: cs.CL cs.AI
प्रकाशन समय: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.13357v1

सारांश

संघीय शिक्षण मशीन लर्निंग मॉडल की गोपनीयता-संरक्षित प्रशिक्षण के लिए एक सामान्य विधि है। यह पेपर संघीय वातावरण में ASR मॉडल की विशेषता अनुमान हमलों के प्रति संवेदनशीलता का विश्लेषण करता है। शोधकर्ताओं ने निष्क्रिय खतरे के मॉडल के तहत, तीन ASR मॉडल (Wav2Vec2, HuBERT और Whisper) पर गैर-पैरामीट्रिक व्हाइट-बॉक्स हमले की विधि का परीक्षण किया। यह हमला केवल वजन अंतर पर आधारित है, लक्ष्य वक्ता के मूल भाषण तक पहुंच की आवश्यकता नहीं है। अनुसंधान संवेदनशील जनसांख्यिकीय और नैदानिक विशेषताओं (लिंग, आयु, उच्चारण, भावना और आर्टिकुलेशन विकार) पर हमलों की व्यवहार्यता को प्रदर्शित करता है। अध्ययन से पता चलता है कि पूर्व-प्रशिक्षण डेटा में कम प्रतिनिधित्व या अनुपस्थित विशेषताएं इस तरह के अनुमान हमलों के लिए अधिक संवेदनशील हैं। विशेष रूप से, उच्चारण जानकारी सभी मॉडल से विश्वसनीय रूप से अनुमानित की जा सकती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: क्या संघीय शिक्षण वातावरण में ASR मॉडल मॉडल वजन अपडेट के माध्यम से उपयोगकर्ता की संवेदनशील व्यक्तिगत विशेषताओं की जानकारी लीक करते हैं
गोपनीयता खतरा: भाषण डेटा में समृद्ध व्यक्तिगत जानकारी होती है, जिसमें जनसांख्यिकीय विशेषताएं (लिंग, आयु, उच्चारण), नैदानिक स्थिति (आर्टिकुलेशन विकार) और भावनात्मक स्थिति शामिल हैं

महत्व विश्लेषण

कानूनी अनुपालन: विशेषता रिसाव GDPR, HIPAA और अमेरिकी तथा यूरोपीय संघ के भेदभाव-विरोधी कानूनों का उल्लंघन कर सकता है
गोपनीयता संरक्षण: ADA विकलांग व्यक्तियों को भेदभाव से बचाता है, भाषण विकार की जानकारी का रिसाव गंभीर परिणाम हो सकता है
व्यावहारिक खतरा: भले ही पहचान लीक न हो, केवल उच्चारण या भावनात्मक स्थिति जैसी विशेषताओं का रिसाव भी गंभीर गोपनीयता उल्लंघन है

मौजूदा विधियों की सीमाएं

संघीय शिक्षण धारणा: हालांकि संघीय शिक्षण मूल ऑडियो को डिवाइस पर रखकर गोपनीयता में सुधार करता है, मॉडल अपडेट अभी भी संवेदनशील जानकारी लीक कर सकते हैं
अनुसंधान अंतराल: पिछले कार्य मुख्य रूप से वक्ता पुनः-पहचान और सदस्यता अनुमान हमलों पर केंद्रित थे, लेकिन विशेषता रिसाव की सीमा अभी भी पूरी तरह से अन्वेषित नहीं है
खतरे का मॉडल: केवल वजन अपडेट के माध्यम से विशेषता अनुमान का व्यवस्थित अध्ययन की कमी है

मुख्य योगदान

पहला व्यवस्थित अध्ययन: संघीय ASR मॉडल में व्यक्तिगत विशेषता रिसाव की संवेदनशीलता का पहला व्यापक विश्लेषण
बहु-विशेषता मूल्यांकन: पांच संवेदनशील विशेषताओं (लिंग, आयु, उच्चारण, भावना, आर्टिकुलेशन विकार) पर तीन मुख्यधारा ASR मॉडल का मूल्यांकन
हमले की विधि: वजन अंतर पर आधारित गैर-पैरामीट्रिक व्हाइट-बॉक्स हमले की विधि प्रस्तावित करता है, मूल भाषण डेटा तक पहुंच की आवश्यकता नहीं है
मुख्य निष्कर्ष: पूर्व-प्रशिक्षण डेटा में कम प्रतिनिधित्व वाली विशेषताएं अधिक आसानी से लीक होती हैं, विशेष रूप से उच्चारण जानकारी
सुरक्षा अंतर्दृष्टि: पूर्व-प्रशिक्षण डेटा को विविध बनाकर विशेषता रिसाव को कम करने के लिए अनुभवजन्य साक्ष्य प्रदान करता है

विधि विस्तार

खतरे का मॉडल

अनुसंधान निष्क्रिय सर्वर-पक्ष हमलावर मॉडल को अपनाता है:

हमलावर की क्षमता: वैश्विक मॉडल Wg और लक्ष्य वक्ता के स्थानीय प्रशिक्षण मॉडल Ws तक पहुंच प्राप्त कर सकता है
हमले की सीमाएं: मूल ऑडियो, प्रतिलेखन पाठ या मेटाडेटा तक पहुंच नहीं प्राप्त कर सकता
हमले का लक्ष्य: केवल वजन अंतर के माध्यम से संरक्षित व्यक्तिगत विशेषताओं का अनुमान लगाना
प्रशिक्षण धारणा: प्रत्येक मॉडल एक एकल वक्ता के एकल वाक्य उच्चारण पर सूक्ष्म-ट्यून किया जाता है

विशेषता अनुमान हमले एल्गोरिथ्म

1. छाया मॉडल निर्माण

सार्वजनिक डेटासेट का उपयोग करके सूक्ष्म-ट्यूनिंग प्रक्रिया का अनुकरण करता है:

प्रत्येक नमूने के लिए (xi, yi), i = 1,...,n:
1. नमूने xi पर वैश्विक मॉडल Wg को सूक्ष्म-ट्यून करें
2. छाया मॉडल Wi प्राप्त करें
3. लेबल किए गए डेटासेट {(Wi, yi)} का निर्माण करें

2. विशेषता निष्कर्षण

प्रत्येक पैरामीटर टेंसर p ∈ Wi से सांख्यिकीय सारांश निकालता है:

zi = concat([μp, σp, min(p), max(p)] प्रत्येक p ∈ Wi के लिए)

जहां zi ∈ Rd एक निश्चित लंबाई का विशेषता वेक्टर है।

3. वर्ग केंद्रक गणना

प्रत्येक वर्ग के लिए केंद्रक की गणना करता है:

z̄c = (1/Nc) ∑(i=1 से Nc) zi, जहां zi ∈ वर्ग c

4. विशेषता अनुमान

लक्ष्य मॉडल Ws के लिए, विशेषता वेक्टर zs निकालता है और सामान्यीकृत यूक्लिडियन दूरी का उपयोग करके वर्गीकरण करता है:

ĉ = argmin_c (||zs - z̄c||2 / (||zs||2 · ||z̄c||2))

तकनीकी नवाचार बिंदु

गैर-पैरामीट्रिक विधि: जटिल वर्गीकारक को प्रशिक्षित करने की आवश्यकता नहीं है, केवल सांख्यिकीय सारांश और दूरी मेट्रिक का उपयोग करता है
वजन अंतर विश्लेषण: मॉडल पैरामीटर परिवर्तन से सीधे विशेषता जानकारी निकालता है
स्केलेबिलिटी: विधि स्वाभाविक रूप से बहु-वर्ग सेटिंग तक विस्तारित होती है
व्यावहारिकता: हमले के लिए आवश्यक कम्प्यूटेशनल संसाधन और डेटा मात्रा अपेक्षाकृत कम है

प्रायोगिक सेटअप

डेटासेट

विशेषता	डेटासेट	नमूने	विवरण
लिंग, आयु, उच्चारण	Speech Accent Archive (SAA)	200	नियंत्रित रिकॉर्डिंग, समान स्क्रिप्ट
आर्टिकुलेशन विकार	TORGO	15 वक्ता	8 विकार के साथ, 7 सामान्य
भावना	RAVDESS	24 वक्ता	पेशेवर अभिनेताओं द्वारा प्रदर्शित भावनात्मक भाषण

प्रायोगिक कार्य सेटअप

लिंग पहचान: 200 मातृभाषा अंग्रेजी वक्ता, 100 पुरुष 100 महिला, 75/25 प्रशिक्षण परीक्षण विभाजन
आयु पहचान: 18-24 वर्ष बनाम 35-44 वर्ष, 70 पुरुष वक्ता, 5-गुना क्रॉस-सत्यापन
उच्चारण पहचान: 200 वक्ता, मातृभाषा बनाम गैर-मातृभाषा अंग्रेजी उपयोगकर्ता
भावना पहचान: तीन द्विआधारी वर्गीकरण कार्य (शांत बनाम क्रोधित, खुश बनाम उदास, शांत बनाम भयभीत)
आर्टिकुलेशन विकार पहचान: एक-वक्ता-बाहर क्रॉस-सत्यापन

ASR मॉडल

Wav2Vec2-Base: 95 मिलियन पैरामीटर, LibriSpeech पूर्व-प्रशिक्षण
HuBERT-Large: 300 मिलियन पैरामीटर, LibriSpeech प्रशिक्षण
Whisper-Small: 244 मिलियन पैरामीटर, 680,000 घंटे बहुभाषी डेटा प्रशिक्षण

प्रायोगिक परिणाम

मुख्य हमले की सफलता दर

कार्य	Wav2Vec2	HuBERT	Whisper
लिंग पहचान	64%	63%	46%
आयु पहचान	100%	97%	94%
उच्चारण पहचान	100%	80%	93%
आर्टिकुलेशन विकार	59%	76%	81%
भावना: शांत बनाम क्रोधित	52%	67%	83%
भावना: खुश बनाम उदास	50%	54%	75%
भावना: शांत बनाम भयभीत	46%	48%	73%

मुख्य प्रायोगिक निष्कर्ष

विशेषता अंतर महत्वपूर्ण: आयु और उच्चारण सबसे मजबूत रिसाव प्रदर्शित करते हैं (80-100% सटीकता), जबकि लिंग सबसे कठिन है (46-64%)
मॉडल अंतर: Whisper लिंग को छोड़कर सभी विशेषताओं पर >70% रिसाव सटीकता प्रदर्शित करता है
सांख्यिकीय महत्व: आयु पहचान परिणाम सभी मॉडल पर सांख्यिकीय महत्व तक पहुंचते हैं (95% आत्मविश्वास अंतराल)

परत-दर-परत विश्लेषण परिणाम

Wav2Vec2 के परत-दर-परत विश्लेषण से पता चलता है:

आयु जानकारी: सभी परतों में सुसंगत उच्च पहचान दर बनाए रखता है
भावना और आर्टिकुलेशन विकार: मध्य-बाद परतों में अधिक परिवर्तनशीलता प्रदर्शित करते हैं
परत विशिष्टता: कुछ विशिष्ट परतों का प्रदर्शन कभी-कभी पूर्ण मॉडल अनुमान से बेहतर होता है

सूक्ष्म-दानेदार उच्चारण वर्गीकरण

10 सबसे सामान्य उच्चारणों के बहु-वर्ग वर्गीकरण प्रयोग:

हमले से पहले: सभी परीक्षण उच्चारण ≥90% सटीकता तक पहुंचते हैं
सुरक्षा के बाद: विविध उच्चारण डेटा पर सूक्ष्म-ट्यूनिंग के बाद, हमले की सफलता दर <20% तक गिरती है
सामान्यीकरण क्षमता: अदेखे उच्चारणों (जापानी, इतालवी, जर्मन, पोलिश, मैसेडोनियन) पर अभी भी उच्च हमले की सफलता दर बनाए रखता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

संवेदनशीलता की पुष्टि: संघीय ASR मॉडल वास्तव में वजन अपडेट के माध्यम से व्यक्तिगत विशेषताओं के रिसाव का जोखिम रखते हैं
विशेषता संबंधितता: रिसाव की डिग्री पूर्व-प्रशिक्षण डेटा में विशेषता के प्रतिनिधित्व से निकटता से संबंधित है
सुरक्षा रणनीति: पूर्व-प्रशिक्षण डेटा को विविध बनाना ज्ञात विशेषताओं के रिसाव को प्रभावी ढंग से कम कर सकता है

सीमाएं

प्रायोगिक पैमाना: कुछ कार्यों का नमूना आकार छोटा है, जो परिणामों की सामान्यीकरण क्षमता को प्रभावित कर सकता है
भाषा सीमा: मुख्य रूप से अंग्रेजी भाषण पर केंद्रित है, बहुभाषी वातावरण में रिसाव की स्थिति को आगे के अनुसंधान की आवश्यकता है
हमले का मॉडल: केवल निष्क्रिय हमलावर पर विचार करता है, सक्रिय हमले अधिक गंभीर रिसाव पैदा कर सकते हैं
वास्तविक बाधाएं: एकल वाक्य सूक्ष्म-ट्यूनिंग की धारणा वास्तविक संघीय शिक्षण परिदृश्य के अनुरूप नहीं हो सकती है

भविष्य की दिशाएं

सुरक्षा तंत्र: अधिक प्रभावी गोपनीयता संरक्षण तकनीकें विकसित करें, जैसे अंतर गोपनीयता, सुरक्षित एकत्रीकरण आदि
बहुभाषी अनुसंधान: बहुभाषी और क्रॉस-भाषी परिदृश्य तक विस्तार करें
गतिशील सुरक्षा: विशेषता रिसाव का वास्तविक समय पहचान और सुरक्षा के तरीकों का अध्ययन करें
सैद्धांतिक विश्लेषण: विशेषता रिसाव के मूल कारणों का सैद्धांतिक दृष्टिकोण से विश्लेषण करें

गहन मूल्यांकन

शक्तियां

अनुसंधान का महत्व: संघीय ASR मॉडल की विशेषता रिसाव संवेदनशीलता को पहली बार व्यवस्थित रूप से उजागर करता है, जिसका गोपनीयता संरक्षण के लिए महत्वपूर्ण अर्थ है
विधि डिजाइन उचित: हमले की विधि सरल और प्रभावी है, खतरे का मॉडल वास्तविक और विश्वसनीय है
व्यापक प्रयोग: कई विशेषताओं, कई मॉडल और विस्तृत विश्लेषण प्रयोगों को शामिल करता है
गहन अंतर्दृष्टि: पूर्व-प्रशिक्षण डेटा विविधता और गोपनीयता संरक्षण के बीच महत्वपूर्ण संबंध की खोज करता है
व्यावहारिक मूल्य: संघीय शिक्षण प्रणालियों की गोपनीयता संरक्षण के लिए महत्वपूर्ण मार्गदर्शन प्रदान करता है

कमियां

डेटासेट सीमा: कुछ प्रयोगों में उपयोग किए गए डेटासेट का आकार छोटा है, जो परिणामों की सांख्यिकीय विश्वसनीयता को प्रभावित कर सकता है
हमले की धारणा: एकल वाक्य सूक्ष्म-ट्यूनिंग की धारणा बहुत सरलीकृत है, व्यावहारिक अनुप्रयोग में आमतौर पर अधिक डेटा का उपयोग किया जाता है
सुरक्षा मूल्यांकन: सुरक्षा विधियों का मूल्यांकन अपेक्षाकृत सीमित है, अधिक व्यापक सुरक्षा विश्लेषण की आवश्यकता है
कम्प्यूटेशनल जटिलता: हमले की कम्प्यूटेशनल लागत और व्यवहार्यता का विस्तार से विश्लेषण नहीं किया गया है

प्रभाव

शैक्षणिक योगदान: संघीय शिक्षण गोपनीयता अनुसंधान के लिए एक नई दिशा खोलता है, अधिक संबंधित अनुसंधान को प्रेरित करने की उम्मीद है
व्यावहारिक मार्गदर्शन: औद्योगिक क्षेत्र के लिए संघीय ASR प्रणाली को तैनात करने के लिए महत्वपूर्ण सुरक्षा विचार प्रदान करता है
नीति प्रभाव: अनुसंधान परिणाम संबंधित गोपनीयता संरक्षण नियमों के निर्माण और कार्यान्वयन को प्रभावित कर सकते हैं
तकनीकी प्रेरणा: अधिक सुरक्षित संघीय शिक्षण एल्गोरिथ्म और गोपनीयता संरक्षण तकनीकों के विकास को बढ़ावा देता है

लागू परिदृश्य

संघीय ASR प्रणाली: विभिन्न संघीय भाषण पहचान अनुप्रयोगों की सुरक्षा मूल्यांकन के लिए सीधे लागू होता है
गोपनीयता ऑडिट: गोपनीयता संरक्षण प्रणालियों के सुरक्षा ऑडिट उपकरण के रूप में कार्य कर सकता है
मॉडल डिजाइन: अधिक सुरक्षित भाषण मॉडल डिजाइन करने के लिए महत्वपूर्ण संदर्भ प्रदान करता है
नियामक अनुपालन: संगठनों को भाषण AI प्रणालियों की अनुपालन सुनिश्चित करने और मूल्यांकन करने में सहायता करता है

संदर्भ

Baevski et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." NeurIPS 2020.
Hsu et al. "HuBERT: Self-supervised speech representation learning by masked prediction of hidden units." IEEE/ACM TASLP 2021.
Radford et al. "Robust speech recognition via large-scale weak supervision." ICML 2023.
Shokri et al. "Membership inference attacks against machine learning models." IEEE S&P 2017.
Melis et al. "Exploiting unintended feature leakage in collaborative learning." IEEE S&P 2019.

यह पेपर संघीय शिक्षण में भाषण क्षेत्र के महत्वपूर्ण गोपनीयता जोखिमों को उजागर करता है, अधिक सुरक्षित भाषण AI प्रणालियों के निर्माण के लिए मूल्यवान अंतर्दृष्टि और मार्गदर्शन प्रदान करता है। अनुसंधान न केवल महत्वपूर्ण शैक्षणिक मूल्य रखता है, बल्कि व्यावहारिक अनुप्रयोगों के लिए गहरे प्रभाव का महत्व भी रखता है।