Personal Attribute Leakage in Federated Speech Models
Al-Ali, Ghavamipour, Caselli et al.
Federated learning is a common method for privacy-preserving training of machine learning models. In this paper, we analyze the vulnerability of ASR models to attribute inference attacks in the federated setting. We test a non-parametric white-box attack method under a passive threat model on three ASR models: Wav2Vec2, HuBERT, and Whisper. The attack operates solely on weight differentials without access to raw speech from target speakers. We demonstrate attack feasibility on sensitive demographic and clinical attributes: gender, age, accent, emotion, and dysarthria. Our findings indicate that attributes that are underrepresented or absent in the pre-training data are more vulnerable to such inference attacks. In particular, information about accents can be reliably inferred from all models. Our findings expose previously undocumented vulnerabilities in federated ASR models and offer insights towards improved security.
academic
Fuga de Atributos Personales en Modelos de Habla Federados
El aprendizaje federado es un método común para el entrenamiento de modelos de aprendizaje automático con protección de privacidad. Este artículo analiza la vulnerabilidad de los modelos ASR en entornos federados frente a ataques de inferencia de atributos. Los investigadores probaron métodos de ataque de caja blanca no paramétricos bajo un modelo de amenaza pasivo en tres modelos ASR (Wav2Vec2, HuBERT y Whisper). El ataque se ejecuta únicamente basándose en diferencias de pesos, sin necesidad de acceso al habla original del hablante objetivo. El estudio demuestra la viabilidad de ataques contra atributos demográficos y clínicos sensibles (género, edad, acento, emoción y trastorno articulatorio). Los investigadores descubrieron que los atributos subrepresentados o ausentes en los datos de preentrenamiento son más susceptibles a tales ataques de inferencia. En particular, la información de acento puede inferirse de manera confiable de todos los modelos.
Problema Central: ¿Los modelos ASR en entornos de aprendizaje federado filtran información de atributos personales sensibles de los usuarios a través de actualizaciones de pesos del modelo?
Amenazas a la Privacidad: Los datos de voz contienen información personal abundante, incluyendo características demográficas (género, edad, acento), condiciones clínicas (trastorno articulatorio) y estado emocional
Cumplimiento Legal: La fuga de atributos puede violar GDPR, HIPAA y leyes antidiscriminación de EE.UU. y la UE
Protección de Privacidad: La ADA protege a las personas con discapacidades de la discriminación; la fuga de información sobre trastornos del habla tiene consecuencias graves
Amenaza Práctica: Incluso sin filtrar identidad, la fuga de atributos como acento o estado emocional constituye una violación grave de privacidad
Suposiciones del Aprendizaje Federado: Aunque el aprendizaje federado mejora la privacidad manteniendo el audio original en el dispositivo, las actualizaciones del modelo aún pueden filtrar información sensible
Brecha de Investigación: Trabajos anteriores se han enfocado principalmente en reidentificación de hablantes e ataques de inferencia de membresía, pero el alcance de la fuga de atributos sigue sin explorarse completamente
Modelo de Amenaza: Falta investigación sistemática sobre inferencia de atributos únicamente a través de actualizaciones de pesos
Primer Estudio Sistemático: Primer análisis integral de vulnerabilidades de fuga de atributos personales en modelos ASR federados
Evaluación Multiatributo: Evaluación de tres modelos ASR principales en cinco atributos sensibles (género, edad, acento, emoción, trastorno articulatorio)
Método de Ataque: Propuesta de método de ataque de caja blanca no paramétrico basado en diferencias de pesos, sin necesidad de acceso a datos de voz original
Hallazgos Clave: Descubrimiento de que los atributos subrepresentados en datos de preentrenamiento se filtran más fácilmente, especialmente la información de acento
Perspectivas de Defensa: Proporciona evidencia empírica de mitigación de fuga de atributos mediante diversificación de datos de preentrenamiento
Simulación del proceso de ajuste fino usando conjuntos de datos públicos:
Para cada muestra (xi, yi), i = 1,...,n:
1. Ajustar el modelo global Wg en la muestra xi
2. Obtener modelo sombra Wi
3. Construir conjunto de datos etiquetado {(Wi, yi)}
Diferencias de Atributos Significativas: La edad y el acento muestran la fuga más fuerte (precisión de 80-100%), mientras que el género es más difícil de predecir (46-64%)
Diferencias de Modelos: Whisper muestra fuga >70% en todos los atributos excepto género
Significancia Estadística: Los resultados de detección de edad alcanzan significancia estadística en todos los modelos (intervalo de confianza del 95%)
Ataques de Inferencia de Membresía: Shokri et al. propusieron por primera vez ataques de inferencia de membresía contra modelos de aprendizaje automático
Fugas en Aprendizaje Colaborativo: Melis et al. investigaron fugas de características no intencionales en aprendizaje colaborativo
Ataques en Dominio de Voz: Trabajos anteriores se enfocaron principalmente en reidentificación de hablantes e inferencia de membresía
Confirmación de Vulnerabilidad: Los modelos ASR federados efectivamente presentan riesgo de filtrar atributos personales a través de actualizaciones de pesos
Correlación de Atributos: El grado de fuga está estrechamente relacionado con la representatividad del atributo en datos de preentrenamiento
Estrategia de Defensa: La diversificación de datos de preentrenamiento puede mitigar efectivamente la fuga de atributos conocidos
Escala Experimental: Algunas tareas tienen tamaños de muestra pequeños, lo que puede afectar la generalización de resultados
Limitación de Idioma: Se enfoca principalmente en voz en inglés; la fuga en entornos multilingües requiere investigación adicional
Modelo de Ataque: Solo considera atacantes pasivos; los ataques activos pueden producir fugas más graves
Restricciones Prácticas: La suposición de ajuste fino de una sola emisión puede no alinearse completamente con escenarios reales de aprendizaje federado
Significancia de Investigación: Primer análisis sistemático que revela vulnerabilidades de fuga de atributos en modelos ASR federados, con significancia importante para protección de privacidad
Diseño de Método Razonable: Método de ataque simple y efectivo, modelo de amenaza creíble y realista
Limitaciones de Conjunto de Datos: Algunos experimentos utilizan conjuntos de datos de escala pequeña, lo que puede afectar la confiabilidad estadística de resultados
Suposiciones de Ataque: La suposición de ajuste fino de una sola emisión es demasiado simplificada; las aplicaciones prácticas típicamente utilizan más datos
Evaluación de Defensa: La evaluación de métodos de defensa es relativamente limitada, requiriendo análisis de seguridad más integral
Complejidad Computacional: Falta análisis detallado del costo computacional y viabilidad del ataque
Contribución Académica: Abre nueva dirección para investigación de privacidad en aprendizaje federado, se espera genere más investigación relacionada
Orientación Práctica: Proporciona consideraciones de seguridad importantes para despliegue industrial de sistemas ASR federados
Impacto Político: Los resultados de investigación pueden influir en formulación e implementación de regulaciones de protección de privacidad relevantes
Impulso Tecnológico: Promueve desarrollo de algoritmos de aprendizaje federado más seguros y tecnologías de protección de privacidad
Baevski et al. "wav2vec 2.0: A framework for self-supervised learning of speech representations." NeurIPS 2020.
Hsu et al. "HuBERT: Self-supervised speech representation learning by masked prediction of hidden units." IEEE/ACM TASLP 2021.
Radford et al. "Robust speech recognition via large-scale weak supervision." ICML 2023.
Shokri et al. "Membership inference attacks against machine learning models." IEEE S&P 2017.
Melis et al. "Exploiting unintended feature leakage in collaborative learning." IEEE S&P 2019.
Este artículo revela riesgos importantes de privacidad en el aprendizaje federado en el dominio de voz, proporcionando perspectivas y orientación valiosas para construir sistemas de IA de voz más seguros. La investigación no solo posee valor académico importante, sino que también tiene implicaciones profundas para aplicaciones prácticas.