Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.
- ID del Artículo: 2510.12780
- Título: Content Anonymization for Privacy in Long-form Audio
- Autores: Cristina Aggazzotti, Ashi Garg, Zexin Cai, Nicholas Andrews (Universidad Johns Hopkins)
- Clasificación: cs.SD (Sonido), cs.CL (Lingüística Computacional)
- Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.12780
Las técnicas existentes de anonimización de voz han logrado ocultar exitosamente la identidad acústica del hablante en oraciones cortas y aisladas en pruebas de referencia como el Desafío VoicePrivacy. Sin embargo, en aplicaciones prácticas, las oraciones rara vez aparecen de forma aislada: el audio de larga duración es común en entrevistas, llamadas telefónicas y reuniones. En estos casos, hay múltiples oraciones disponibles del mismo hablante, lo que presenta mayores riesgos de privacidad: los atacantes pueden utilizar el vocabulario, la gramática y los patrones de expresión de un individuo para reidentificarlo, incluso si su voz está completamente disfrazada. Para abordar este riesgo, este artículo propone nuevos métodos de anonimización de contenido. El método realiza reescritura contextual del texto transcrito en una canalización ASR-TTS para eliminar el estilo específico del hablante mientras se preserva la semántica. La investigación demuestra la efectividad de los ataques basados en contenido contra el habla anonimizada en configuraciones de diálogos telefónicos de larga duración, y luego muestra cómo el método de anonimización propuesto basado en contenido mitiga este riesgo mientras mantiene la utilidad del habla.
Las técnicas existentes de anonimización de voz se centran principalmente en ocultar la identidad acústica a nivel de oración individual, pero enfrentan desafíos significativos en escenarios de audio de larga duración:
- Prevalencia del audio de larga duración: En aplicaciones prácticas como entrevistas, llamadas telefónicas y reuniones, el audio típicamente contiene múltiples oraciones del mismo hablante
- Contenido lingüístico como canal lateral biométrico: Los atacantes pueden utilizar características lingüísticas del hablante como selección de vocabulario, estructura gramatical y hábitos de expresión para la identificación
- Limitaciones de métodos existentes: Se enfoca únicamente en la anonimización de la señal acústica, ignorando la información de identidad en el contenido lingüístico
- Necesidad de protección de privacidad: Con el aumento de aplicaciones de datos de voz, la protección de la identidad del hablante se vuelve cada vez más importante
- Brecha entre pruebas de referencia y aplicaciones prácticas: Las pruebas de referencia existentes no consideran las características especiales del audio de larga duración
- Amenazas multimodales: Los atacantes pueden explotar simultáneamente características acústicas y lingüísticas, requiriendo protección integral
- Protección unimodal: Solo procesa características acústicas, ignorando el contenido lingüístico
- Tratamiento simple de PII: Solo elimina información de identidad personal obvia, sin procesar el estilo lingüístico
- Procesamiento a nivel de oración: Carece de consideración de estructuras discursivas en audio de larga duración
- Primer estudio sistemático: Primer estudio que evalúa sistemáticamente ataques basados en contenido en anonimización de voz para audio de larga duración
- Método de reescritura contextualizada: Propone técnica de reescritura conjunta de múltiples oraciones basada en ventana deslizante que considera el contexto del diálogo
- Cuantificación del equilibrio privacidad-utilidad: Utiliza modelos generativos modernos y sistemas de detección para cuantificar el equilibrio entre protección de privacidad y utilidad práctica
- Comparación de múltiples modelos: Compara el rendimiento de modelos API (GPT-4o-mini, GPT-5) y modelos locales (Gemma-3-4B)
- Marco de evaluación integral: Establece un sistema de evaluación multidimensional que incluye protección de privacidad, fidelidad de contenido y naturalidad del audio
Dado un registro de audio de larga duración X=(u1,u2,...,uN) (del hablante fuente s), el objetivo es producir una versión anonimizada X′=g(X) que no sea atribuible a s. La anonimización exitosa requiere que la tasa de error igual del atacante (EER) alcance el 50% (nivel de adivinanza aleatoria).
- Fase ASR: Utiliza Whisper-medium para transcribir el audio original a texto
- Fase de anonimización de contenido: Realiza procesamiento de reescritura del texto transcrito
- Fase TTS: Sintetiza nuevo habla utilizando incrustaciones de pseudohablante objetivo
1. Reescritura Oración por Oración (GPT-4o-mini)
- Procesa cada oración de forma independiente
- Aplicable para procesamiento de oraciones más cortas
2. Reescritura Segmentada (Gemma-3-4B, GPT-5)
- Procesa segmentos de texto que abarcan múltiples oraciones (16 oraciones o aproximadamente 300 tokens)
- Capaz de capturar y alterar patrones de discurso más amplios
- Utiliza ventana deslizante para proporcionar contexto (N=8 oraciones anteriores)
- Reemplazo de PII: Reemplaza información de identidad personal con información ficticia pero consistente con el género
- Cambio de estilo: Modifica el estilo lingüístico para eliminar características del hablante
- Ajuste de longitud: Comprime contenido y altera la longitud de las oraciones
- Conciencia contextual: Considera el historial de diálogo para la reescritura
- Reescritura conjunta de múltiples oraciones: Supera las limitaciones del procesamiento tradicional de una sola oración, considerando la estructura discursiva
- Mecanismo de ventana contextual: Aprovecha el historial de diálogo para reescritura más precisa
- Soluciones localizadas: Proporciona opciones de modelos locales que protegen la privacidad y son prácticas
- Optimización multidimensional: Considera simultáneamente protección de privacidad, fidelidad semántica y evasión de detección
- Corpus de Habla Fisher: Contiene casi 2000 horas de habla telefónica conversacional
- Configuración experimental: Utiliza configuración "difícil" (1944 pruebas)
- Muestras positivas (959): Diálogos de diferentes temas del mismo hablante
- Muestras negativas (985): Diálogos del mismo tema de diferentes hablantes
- VoxCeleb2: Utilizado para generar incrustaciones de pseudohablante objetivo
- Tasa de Error Igual (EER): Tasa de error del atacante para distinguir entre habla del mismo hablante e hablantes diferentes
- Objetivo: EER = 50% (nivel de adivinanza aleatoria)
- UTMOS: Puntuación de naturalidad del habla predicha automáticamente (1-5 puntos)
- Similitud semántica:
- Puntuación de alineación codiciosa (GAS)
- Similitud de deformación temporal dinámica (DTW-Sim)
- Detección de texto sintetizado: Utilizando detector Binoculars
- Detección de habla sintetizada: Utilizando detector SSL-AASIST
- Solo anonimización de audio: Canalización ASR-TTS estándar sin modificación de contenido
- Solo anonimización de contenido: Reescritura de contenido manteniendo la voz original
- Anonimización de audio + contenido: Reescritura de contenido simultánea y anonimización de voz
- Ataque de voz: Modelo de verificación de hablante WavLM-Base
- Ataque de contenido: Modelo LUAR (Learning Universal Authorship Representations)
- Amenaza de ataques basados en contenido: Con el aumento del número de oraciones, el EER del ataque de contenido disminuye de aproximadamente 0.4 a 0.1, demostrando la capacidad de identificación del contenido lingüístico
- Efectividad de anonimización: Todos los métodos de reescritura mejoran significativamente el EER, acercando los ataques de contenido al nivel de adivinanza aleatoria
- Comparación de modelos: La reescritura segmentada (GPT-5, Gemma3-4B) es más efectiva que la reescritura oración por oración (GPT4o-mini)
- Naturalidad del audio: La puntuación UTMOS del habla anonimizada es 3.14, superior a la grabación original de 2.09
- Fidelidad semántica:
- GPT-5: GAS=0.699, DTW-Sim=0.739
- Gemma3-4B: GAS=0.648, DTW-Sim=0.582
- GPT4o-mini: GAS=0.678, DTW-Sim=0.702
- Estrategia conservadora (Gemma3-4Bc): Retiene el 50% de las oraciones originales, dificultad de detección más baja
- Reescritura completa: Proporciona protección de privacidad más fuerte pero detectabilidad ligeramente mayor
- Detección de habla sintetizada: Más precisa que la detección de texto sintetizado, especialmente con pocas oraciones
- Efecto de retranscripción: La retranscripción después de la síntesis puede eliminar parcialmente las características de texto generado por máquina
Los experimentos demuestran que el proceso de retranscripción a través de la canalización ASR-TTS puede eliminar naturalmente algunas características de texto generado por máquina, haciendo que el texto anonimizado final sea más difícil de detectar como generado artificialmente.
- Desafío VoicePrivacy: Se enfoca principalmente en anonimización acústica de oraciones cortas
- Métodos tradicionales: Conversión de voz kNN, etc., con buen rendimiento en escenarios de una sola oración
- Procesamiento de PII: Los métodos existentes se enfoca principalmente en identificadores explícitos como nombres y ubicaciones
- Anonimización de estilo: Carece de tratamiento sistemático de características de estilo lingüístico
- Análisis de texto: Basado en características como selección de vocabulario, gramática y uso de palabras funcionales
- Transcripción de voz: Trabajos recientes demuestran información de identidad en texto transcrito
- La amenaza de contenido es real: El contenido lingüístico en audio de larga duración constituye un riesgo significativo de privacidad
- La protección de reescritura es efectiva: La reescritura basada en LLM puede defender efectivamente contra ataques de contenido
- Las soluciones locales son viables: Los modelos pequeños de código abierto (Gemma-3-4B) se acercan al rendimiento de modelos API
- La utilidad se puede mantener: Se puede mantener la calidad del habla e integridad semántica mientras se proporciona protección de privacidad
- Propagación de errores ASR: Los errores en la fase ASR pueden afectar la calidad final
- Fidelidad semántica: El proceso de reescritura puede perder información semántica sutil o tono irónico
- Limitaciones del modelo de ataque: Se considera principalmente atacantes no informados; los ataques semi-informados pueden ser más efectivos
- Falta de solución end-to-end: El método actual depende de una canalización en cascada, careciendo de solución end-to-end
- Modelos end-to-end: Desarrollar sistemas end-to-end que anonimicen conjuntamente voz y contenido
- Reescritura robusta: Mejorar el equilibrio del modelo de reescritura entre fidelidad semántica y anonimización de estilo
- Protección contra ataques fuertes: Investigar estrategias de defensa contra atacantes semi-informados
- Procesamiento en tiempo real: Desarrollar métodos de anonimización eficientes aplicables a escenarios en tiempo real
- Importancia del problema: Identifica y resuelve sistemáticamente por primera vez la amenaza de contenido en anonimización de audio de larga duración
- Innovación del método: Propone estrategia de reescritura conjunta de múltiples oraciones consciente del contexto
- Suficiencia experimental:
- Sistema de evaluación multidimensional (privacidad, utilidad, detectabilidad)
- Comparación de múltiples modelos y estrategias
- Validación en conjunto de datos reales
- Valor práctico: Proporciona solución completa desde modelos API a modelos locales
- Rigor de investigación: Utiliza modelos de ataque establecidos y protocolos de evaluación
- Conjunto de datos único: Validación principalmente en corpus Fisher, falta verificación de generalización entre dominios
- Limitación de modelos de ataque: No considera ataques adaptativos más fuertes o ataques multimodales
- Falta de análisis de costo computacional: No analiza detalladamente el costo computacional de diferentes métodos
- Falta de investigación con usuarios: Carece de evaluación subjetiva de usuarios reales sobre efectividad de anonimización
- Seguridad a largo plazo: No considera el impacto del progreso en técnicas de ataque en la efectividad de defensa
- Contribución académica:
- Llena el vacío de investigación en anonimización de audio de larga duración
- Establece nuevo paradigma de evaluación y referencia
- Proporciona base importante para investigación posterior
- Valor práctico:
- Proporciona solución práctica de protección de privacidad para procesamiento de datos de voz
- Tiene valor directo en aplicaciones como entrevistas y registros de reuniones
- Proporciona soporte técnico para cumplimiento de regulaciones como GDPR
- Reproducibilidad: Los autores se comprometen a código de código abierto y prompts, facilitando reproducción e extensión de investigación
- Escenarios de alta privacidad: Entrevistas médicas, consultas legales, terapia psicológica, etc.
- Aplicaciones comerciales: Protección de privacidad de llamadas de servicio al cliente y registros de reuniones
- Compartición de datos de investigación: Publicación privatizada de corpus de voz
- Requisitos de cumplimiento: Apoyo técnico para satisfacer requisitos de regulaciones de privacidad como GDPR
Este artículo cita 26 referencias relacionadas que cubren múltiples campos incluyendo anonimización de voz, privacidad de contenido e identificación de autoría, proporcionando una base teórica sólida para la investigación. Las referencias clave incluyen trabajos relacionados con el Desafío VoicePrivacy, el modelo de identificación de autoría LUAR y avances recientes en tecnología de anonimización de voz.
Evaluación General: Este es un artículo de investigación de alta calidad que identifica y resuelve un problema importante en el campo de la anonimización de voz. El método es innovador, los experimentos son suficientes y los resultados son convincentes, con valor significativo tanto para la comunidad académica como para la industria. Aunque existen algunas limitaciones, abre nuevas direcciones de investigación para la protección de privacidad en audio de larga duración.