Personal Attribute Leakage in Federated Speech Models
Al-Ali, Ghavamipour, Caselli et al.
Federated learning is a common method for privacy-preserving training of machine learning models. In this paper, we analyze the vulnerability of ASR models to attribute inference attacks in the federated setting. We test a non-parametric white-box attack method under a passive threat model on three ASR models: Wav2Vec2, HuBERT, and Whisper. The attack operates solely on weight differentials without access to raw speech from target speakers. We demonstrate attack feasibility on sensitive demographic and clinical attributes: gender, age, accent, emotion, and dysarthria. Our findings indicate that attributes that are underrepresented or absent in the pre-training data are more vulnerable to such inference attacks. In particular, information about accents can be reliably inferred from all models. Our findings expose previously undocumented vulnerabilities in federated ASR models and offer insights towards improved security.
academic
Perdita di Attributi Personali nei Modelli di Linguaggio Federato per il Riconoscimento Vocale
L'apprendimento federato è un metodo comunemente utilizzato per l'addestramento di modelli di apprendimento automatico con protezione della privacy. Questo articolo analizza la vulnerabilità dei modelli ASR (Automatic Speech Recognition) agli attacchi di inferenza degli attributi in ambienti federati. I ricercatori hanno testato metodi di attacco white-box non parametrici su tre modelli ASR (Wav2Vec2, HuBERT e Whisper) secondo un modello di minaccia passivo. L'attacco funziona basandosi esclusivamente sulle differenze di peso, senza necessità di accesso ai dati vocali originali del parlante bersaglio. Lo studio dimostra la fattibilità di attacchi su attributi demografici sensibili e clinici (genere, età, accento, emozione e disturbi articolatori). I ricercatori hanno scoperto che gli attributi sottorappresentati o assenti nei dati di preaddestramento sono più vulnerabili a tali attacchi di inferenza. In particolare, le informazioni sull'accento possono essere dedotte in modo affidabile da tutti i modelli.
Problema Centrale: I modelli ASR in ambienti di apprendimento federato perdono informazioni su attributi personali sensibili degli utenti attraverso gli aggiornamenti dei pesi del modello?
Minacce alla Privacy: I dati vocali contengono informazioni personali ricche, incluse caratteristiche demografiche (genere, età, accento), condizioni cliniche (disturbi articolatori) e stati emotivi
Conformità Legale: La perdita di attributi potrebbe violare il GDPR, l'HIPAA e le leggi antidiscriminazione degli Stati Uniti e dell'Unione Europea
Protezione della Privacy: L'ADA protegge le persone con disabilità dalla discriminazione; la perdita di informazioni su disturbi vocali ha conseguenze gravi
Minacce Pratiche: Anche senza perdita di identità, la sola perdita di attributi come accento o stato emotivo costituisce una grave violazione della privacy
Presupposti dell'Apprendimento Federato: Sebbene l'apprendimento federato migliori la privacy mantenendo l'audio originale sul dispositivo, gli aggiornamenti del modello potrebbero comunque perdere informazioni sensibili
Lacune di Ricerca: I lavori precedenti si sono concentrati principalmente su re-identificazione del parlante e attacchi di inferenza di appartenenza, ma l'ambito della perdita di attributi rimane insufficientemente esplorato
Modello di Minaccia: Manca uno studio sistematico sull'inferenza degli attributi attraverso soli aggiornamenti di peso
Studio Sistematico Pioneristico: Prima analisi completa della vulnerabilità alla perdita di attributi personali nei modelli ASR federati
Valutazione Multi-Attributo: Valutazione di tre modelli ASR mainstream su cinque attributi sensibili (genere, età, accento, emozione, disturbi articolatori)
Metodo di Attacco: Propone un metodo di attacco white-box non parametrico basato su differenze di peso, senza necessità di accesso ai dati vocali originali
Scoperte Chiave: Scopre che gli attributi sottorappresentati nei dati di preaddestramento sono più facilmente perduti, in particolare le informazioni sull'accento
Intuizioni Difensive: Fornisce prove empiriche di mitigazione della perdita di attributi attraverso la diversificazione dei dati di preaddestramento
Simulazione del processo di messa a punto utilizzando dataset pubblici:
Per ogni campione (xi, yi), i = 1,...,n:
1. Messa a punto del modello globale Wg sul campione xi
2. Ottenimento del modello ombra Wi
3. Costruzione del dataset etichettato {(Wi, yi)}
Differenze Significative negli Attributi: L'età e l'accento mostrano la perdita più forte (accuratezza 80-100%), mentre il genere è più difficile da prevedere (46-64%)
Differenze nei Modelli: Whisper mostra perdita >70% su tutti gli attributi tranne il genere
Significatività Statistica: I risultati del rilevamento dell'età raggiungono la significatività statistica su tutti i modelli (intervallo di confidenza 95%)
Attacchi di Inferenza di Appartenenza: Shokri et al. hanno proposto per la prima volta attacchi di inferenza di appartenenza contro modelli di apprendimento automatico
Perdite nell'Apprendimento Collaborativo: Melis et al. hanno studiato perdite di caratteristiche accidentali nell'apprendimento collaborativo
Attacchi nel Dominio Vocale: I lavori precedenti si sono concentrati principalmente su re-identificazione del parlante e inferenza di appartenenza
Conferma della Vulnerabilità: I modelli ASR federati presentano effettivamente il rischio di perdita di attributi personali attraverso aggiornamenti di peso
Correlazione degli Attributi: Il grado di perdita è strettamente correlato alla rappresentatività dell'attributo nei dati di preaddestramento
Strategie Difensive: La diversificazione dei dati di preaddestramento può mitigare efficacemente la perdita di attributi noti
Scala Sperimentale: Alcuni compiti hanno dimensioni di campione ridotte, che potrebbero influire sulla generalizzabilità dei risultati
Limitazioni Linguistiche: Focalizzato principalmente sul linguaggio vocale inglese; la situazione di perdita in ambienti multilingue richiede ulteriori ricerche
Modello di Attacco: Considera solo attaccanti passivi; gli attacchi attivi potrebbero causare perdite più gravi
Vincoli Pratici: L'ipotesi di messa a punto a singolo enunciato potrebbe non allinearsi completamente con scenari di apprendimento federato reali
Significato della Ricerca: Primo studio sistematico che rivela la vulnerabilità alla perdita di attributi nei modelli ASR federati, con importante significato per la protezione della privacy
Progettazione Metodologica Razionale: Metodo di attacco semplice ed efficace, modello di minaccia realistico e credibile
Esperimenti Completi: Copertura di molteplici attributi, modelli multipli e analisi sperimentali dettagliate
Intuizioni Profonde: Scoperta dell'importante correlazione tra diversità dei dati di preaddestramento e protezione della privacy
Valore Pratico: Fornisce guida importante per la protezione della privacy nei sistemi di apprendimento federato
Limitazioni dei Dataset: Alcuni esperimenti utilizzano dataset di dimensioni ridotte, che potrebbero influire sull'affidabilità statistica dei risultati
Ipotesi di Attacco: L'ipotesi di messa a punto a singolo enunciato è eccessivamente semplificata; le applicazioni pratiche di solito utilizzano più dati
Valutazione della Difesa: La valutazione dei metodi di difesa è relativamente limitata; è necessaria un'analisi di sicurezza più completa
Complessità Computazionale: Manca un'analisi dettagliata del costo computazionale e della fattibilità dell'attacco
Contributo Accademico: Apre una nuova direzione per la ricerca sulla privacy nell'apprendimento federato, con previsione di stimolare ulteriori ricerche correlate
Guida Pratica: Fornisce importanti considerazioni di sicurezza per l'implementazione industriale di sistemi ASR federati
Impatto Normativo: I risultati della ricerca potrebbero influenzare la formulazione e l'implementazione di normative correlate sulla protezione della privacy
Spinta Tecnologica: Promuove lo sviluppo di algoritmi di apprendimento federato più sicuri e tecnologie di protezione della privacy
Baevski et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." NeurIPS 2020.
Hsu et al. "HuBERT: Self-supervised speech representation learning by masked prediction of hidden units." IEEE/ACM TASLP 2021.
Radford et al. "Robust speech recognition via large-scale weak supervision." ICML 2023.
Shokri et al. "Membership inference attacks against machine learning models." IEEE S&P 2017.
Melis et al. "Exploiting unintended feature leakage in collaborative learning." IEEE S&P 2019.
Questo articolo rivela importanti rischi di privacy nell'apprendimento federato nel dominio vocale, fornendo intuizioni e guida preziose per la costruzione di sistemi di intelligenza artificiale vocale più sicuri. La ricerca non solo ha importante valore accademico, ma ha anche profonde implicazioni per le applicazioni pratiche.