2025-11-16T01:19:12.319847

Content Anonymization for Privacy in Long-form Audio

Aggazzotti, Garg, Cai et al.

Voice anonymization techniques have been found to successfully obscure a speaker's acoustic identity in short, isolated utterances in benchmarks such as the VoicePrivacy Challenge. In practice, however, utterances seldom occur in isolation: long-form audio is commonplace in domains such as interviews, phone calls, and meetings. In these cases, many utterances from the same speaker are available, which pose a significantly greater privacy risk: given multiple utterances from the same speaker, an attacker could exploit an individual's vocabulary, syntax, and turns of phrase to re-identify them, even when their voice is completely disguised. To address this risk, we propose new content anonymization approaches. Our approach performs a contextual rewriting of the transcripts in an ASR-TTS pipeline to eliminate speaker-specific style while preserving meaning. We present results in a long-form telephone conversation setting demonstrating the effectiveness of a content-based attack on voice-anonymized speech. Then we show how the proposed content-based anonymization methods can mitigate this risk while preserving speech utility. Overall, we find that paraphrasing is an effective defense against content-based attacks and recommend that stakeholders adopt this step to ensure anonymity in long-form audio.

academic

Anonimización de Contenido para Privacidad en Audio de Larga Duración

Información Básica

ID del Artículo: 2510.12780
Título: Content Anonymization for Privacy in Long-form Audio
Autores: Cristina Aggazzotti, Ashi Garg, Zexin Cai, Nicholas Andrews (Universidad Johns Hopkins)
Clasificación: cs.SD (Sonido), cs.CL (Lingüística Computacional)
Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12780

Resumen

Las técnicas existentes de anonimización de voz han logrado ocultar exitosamente la identidad acústica del hablante en oraciones cortas y aisladas en pruebas de referencia como el Desafío VoicePrivacy. Sin embargo, en aplicaciones prácticas, las oraciones rara vez aparecen de forma aislada: el audio de larga duración es común en entrevistas, llamadas telefónicas y reuniones. En estos casos, hay múltiples oraciones disponibles del mismo hablante, lo que presenta mayores riesgos de privacidad: los atacantes pueden utilizar el vocabulario, la gramática y los patrones de expresión de un individuo para reidentificarlo, incluso si su voz está completamente disfrazada. Para abordar este riesgo, este artículo propone nuevos métodos de anonimización de contenido. El método realiza reescritura contextual del texto transcrito en una canalización ASR-TTS para eliminar el estilo específico del hablante mientras se preserva la semántica. La investigación demuestra la efectividad de los ataques basados en contenido contra el habla anonimizada en configuraciones de diálogos telefónicos de larga duración, y luego muestra cómo el método de anonimización propuesto basado en contenido mitiga este riesgo mientras mantiene la utilidad del habla.

Antecedentes de Investigación y Motivación

Definición del Problema

Las técnicas existentes de anonimización de voz se centran principalmente en ocultar la identidad acústica a nivel de oración individual, pero enfrentan desafíos significativos en escenarios de audio de larga duración:

Prevalencia del audio de larga duración: En aplicaciones prácticas como entrevistas, llamadas telefónicas y reuniones, el audio típicamente contiene múltiples oraciones del mismo hablante
Contenido lingüístico como canal lateral biométrico: Los atacantes pueden utilizar características lingüísticas del hablante como selección de vocabulario, estructura gramatical y hábitos de expresión para la identificación
Limitaciones de métodos existentes: Se enfoca únicamente en la anonimización de la señal acústica, ignorando la información de identidad en el contenido lingüístico

Importancia de la Investigación

Necesidad de protección de privacidad: Con el aumento de aplicaciones de datos de voz, la protección de la identidad del hablante se vuelve cada vez más importante
Brecha entre pruebas de referencia y aplicaciones prácticas: Las pruebas de referencia existentes no consideran las características especiales del audio de larga duración
Amenazas multimodales: Los atacantes pueden explotar simultáneamente características acústicas y lingüísticas, requiriendo protección integral

Limitaciones de Métodos Existentes

Protección unimodal: Solo procesa características acústicas, ignorando el contenido lingüístico
Tratamiento simple de PII: Solo elimina información de identidad personal obvia, sin procesar el estilo lingüístico
Procesamiento a nivel de oración: Carece de consideración de estructuras discursivas en audio de larga duración

Contribuciones Principales

Primer estudio sistemático: Primer estudio que evalúa sistemáticamente ataques basados en contenido en anonimización de voz para audio de larga duración
Método de reescritura contextualizada: Propone técnica de reescritura conjunta de múltiples oraciones basada en ventana deslizante que considera el contexto del diálogo
Cuantificación del equilibrio privacidad-utilidad: Utiliza modelos generativos modernos y sistemas de detección para cuantificar el equilibrio entre protección de privacidad y utilidad práctica
Comparación de múltiples modelos: Compara el rendimiento de modelos API (GPT-4o-mini, GPT-5) y modelos locales (Gemma-3-4B)
Marco de evaluación integral: Establece un sistema de evaluación multidimensional que incluye protección de privacidad, fidelidad de contenido y naturalidad del audio

Explicación Detallada del Método

Definición de la Tarea

Dado un registro de audio de larga duración $X = (u_1, u_2, ..., u_N)$ (del hablante fuente $s$ ), el objetivo es producir una versión anonimizada $X' = g(X)$ que no sea atribuible a $s$ . La anonimización exitosa requiere que la tasa de error igual del atacante (EER) alcance el 50% (nivel de adivinanza aleatoria).

Arquitectura del Modelo

Canalización de Anonimización ASR-TTS

Fase ASR: Utiliza Whisper-medium para transcribir el audio original a texto
Fase de anonimización de contenido: Realiza procesamiento de reescritura del texto transcrito
Fase TTS: Sintetiza nuevo habla utilizando incrustaciones de pseudohablante objetivo

Métodos de Anonimización de Contenido

1. Reescritura Oración por Oración (GPT-4o-mini)

Procesa cada oración de forma independiente
Aplicable para procesamiento de oraciones más cortas

2. Reescritura Segmentada (Gemma-3-4B, GPT-5)

Procesa segmentos de texto que abarcan múltiples oraciones (16 oraciones o aproximadamente 300 tokens)
Capaz de capturar y alterar patrones de discurso más amplios
Utiliza ventana deslizante para proporcionar contexto (N=8 oraciones anteriores)

Estrategias de Reescritura

Reemplazo de PII: Reemplaza información de identidad personal con información ficticia pero consistente con el género
Cambio de estilo: Modifica el estilo lingüístico para eliminar características del hablante
Ajuste de longitud: Comprime contenido y altera la longitud de las oraciones
Conciencia contextual: Considera el historial de diálogo para la reescritura

Puntos de Innovación Técnica

Reescritura conjunta de múltiples oraciones: Supera las limitaciones del procesamiento tradicional de una sola oración, considerando la estructura discursiva
Mecanismo de ventana contextual: Aprovecha el historial de diálogo para reescritura más precisa
Soluciones localizadas: Proporciona opciones de modelos locales que protegen la privacidad y son prácticas
Optimización multidimensional: Considera simultáneamente protección de privacidad, fidelidad semántica y evasión de detección

Configuración Experimental

Conjunto de Datos

Corpus de Habla Fisher: Contiene casi 2000 horas de habla telefónica conversacional
Configuración experimental: Utiliza configuración "difícil" (1944 pruebas)
- Muestras positivas (959): Diálogos de diferentes temas del mismo hablante
- Muestras negativas (985): Diálogos del mismo tema de diferentes hablantes
VoxCeleb2: Utilizado para generar incrustaciones de pseudohablante objetivo

Métricas de Evaluación

Indicadores de Protección de Privacidad

Tasa de Error Igual (EER): Tasa de error del atacante para distinguir entre habla del mismo hablante e hablantes diferentes
Objetivo: EER = 50% (nivel de adivinanza aleatoria)

Indicadores de Utilidad

UTMOS: Puntuación de naturalidad del habla predicha automáticamente (1-5 puntos)
Similitud semántica:
- Puntuación de alineación codiciosa (GAS)
- Similitud de deformación temporal dinámica (DTW-Sim)

Indicadores de Detectabilidad

Detección de texto sintetizado: Utilizando detector Binoculars
Detección de habla sintetizada: Utilizando detector SSL-AASIST

Métodos de Comparación

Solo anonimización de audio: Canalización ASR-TTS estándar sin modificación de contenido
Solo anonimización de contenido: Reescritura de contenido manteniendo la voz original
Anonimización de audio + contenido: Reescritura de contenido simultánea y anonimización de voz

Modelos de Ataque

Ataque de voz: Modelo de verificación de hablante WavLM-Base
Ataque de contenido: Modelo LUAR (Learning Universal Authorship Representations)

Resultados Experimentales

Resultados Principales

Efectividad de la Protección de Privacidad

Amenaza de ataques basados en contenido: Con el aumento del número de oraciones, el EER del ataque de contenido disminuye de aproximadamente 0.4 a 0.1, demostrando la capacidad de identificación del contenido lingüístico
Efectividad de anonimización: Todos los métodos de reescritura mejoran significativamente el EER, acercando los ataques de contenido al nivel de adivinanza aleatoria
Comparación de modelos: La reescritura segmentada (GPT-5, Gemma3-4B) es más efectiva que la reescritura oración por oración (GPT4o-mini)

Mantenimiento de Utilidad

Naturalidad del audio: La puntuación UTMOS del habla anonimizada es 3.14, superior a la grabación original de 2.09
Fidelidad semántica:
- GPT-5: GAS=0.699, DTW-Sim=0.739
- Gemma3-4B: GAS=0.648, DTW-Sim=0.582
- GPT4o-mini: GAS=0.678, DTW-Sim=0.702

Experimentos de Ablación

Comparación de Estrategias de Reescritura

Estrategia conservadora (Gemma3-4Bc): Retiene el 50% de las oraciones originales, dificultad de detección más baja
Reescritura completa: Proporciona protección de privacidad más fuerte pero detectabilidad ligeramente mayor

Análisis de Evasión de Detección

Detección de habla sintetizada: Más precisa que la detección de texto sintetizado, especialmente con pocas oraciones
Efecto de retranscripción: La retranscripción después de la síntesis puede eliminar parcialmente las características de texto generado por máquina

Análisis de Casos

Los experimentos demuestran que el proceso de retranscripción a través de la canalización ASR-TTS puede eliminar naturalmente algunas características de texto generado por máquina, haciendo que el texto anonimizado final sea más difícil de detectar como generado artificialmente.

Trabajo Relacionado

Anonimización de Voz

Desafío VoicePrivacy: Se enfoca principalmente en anonimización acústica de oraciones cortas
Métodos tradicionales: Conversión de voz kNN, etc., con buen rendimiento en escenarios de una sola oración

Privacidad de Contenido

Procesamiento de PII: Los métodos existentes se enfoca principalmente en identificadores explícitos como nombres y ubicaciones
Anonimización de estilo: Carece de tratamiento sistemático de características de estilo lingüístico

Identificación de Autoría

Análisis de texto: Basado en características como selección de vocabulario, gramática y uso de palabras funcionales
Transcripción de voz: Trabajos recientes demuestran información de identidad en texto transcrito

Conclusiones y Discusión

Conclusiones Principales

La amenaza de contenido es real: El contenido lingüístico en audio de larga duración constituye un riesgo significativo de privacidad
La protección de reescritura es efectiva: La reescritura basada en LLM puede defender efectivamente contra ataques de contenido
Las soluciones locales son viables: Los modelos pequeños de código abierto (Gemma-3-4B) se acercan al rendimiento de modelos API
La utilidad se puede mantener: Se puede mantener la calidad del habla e integridad semántica mientras se proporciona protección de privacidad

Limitaciones

Propagación de errores ASR: Los errores en la fase ASR pueden afectar la calidad final
Fidelidad semántica: El proceso de reescritura puede perder información semántica sutil o tono irónico
Limitaciones del modelo de ataque: Se considera principalmente atacantes no informados; los ataques semi-informados pueden ser más efectivos
Falta de solución end-to-end: El método actual depende de una canalización en cascada, careciendo de solución end-to-end

Direcciones Futuras

Modelos end-to-end: Desarrollar sistemas end-to-end que anonimicen conjuntamente voz y contenido
Reescritura robusta: Mejorar el equilibrio del modelo de reescritura entre fidelidad semántica y anonimización de estilo
Protección contra ataques fuertes: Investigar estrategias de defensa contra atacantes semi-informados
Procesamiento en tiempo real: Desarrollar métodos de anonimización eficientes aplicables a escenarios en tiempo real

Evaluación Profunda

Fortalezas

Importancia del problema: Identifica y resuelve sistemáticamente por primera vez la amenaza de contenido en anonimización de audio de larga duración
Innovación del método: Propone estrategia de reescritura conjunta de múltiples oraciones consciente del contexto
Suficiencia experimental:
- Sistema de evaluación multidimensional (privacidad, utilidad, detectabilidad)
- Comparación de múltiples modelos y estrategias
- Validación en conjunto de datos reales
Valor práctico: Proporciona solución completa desde modelos API a modelos locales
Rigor de investigación: Utiliza modelos de ataque establecidos y protocolos de evaluación

Insuficiencias

Conjunto de datos único: Validación principalmente en corpus Fisher, falta verificación de generalización entre dominios
Limitación de modelos de ataque: No considera ataques adaptativos más fuertes o ataques multimodales
Falta de análisis de costo computacional: No analiza detalladamente el costo computacional de diferentes métodos
Falta de investigación con usuarios: Carece de evaluación subjetiva de usuarios reales sobre efectividad de anonimización
Seguridad a largo plazo: No considera el impacto del progreso en técnicas de ataque en la efectividad de defensa

Impacto

Contribución académica:
- Llena el vacío de investigación en anonimización de audio de larga duración
- Establece nuevo paradigma de evaluación y referencia
- Proporciona base importante para investigación posterior
Valor práctico:
- Proporciona solución práctica de protección de privacidad para procesamiento de datos de voz
- Tiene valor directo en aplicaciones como entrevistas y registros de reuniones
- Proporciona soporte técnico para cumplimiento de regulaciones como GDPR
Reproducibilidad: Los autores se comprometen a código de código abierto y prompts, facilitando reproducción e extensión de investigación

Escenarios Aplicables

Escenarios de alta privacidad: Entrevistas médicas, consultas legales, terapia psicológica, etc.
Aplicaciones comerciales: Protección de privacidad de llamadas de servicio al cliente y registros de reuniones
Compartición de datos de investigación: Publicación privatizada de corpus de voz
Requisitos de cumplimiento: Apoyo técnico para satisfacer requisitos de regulaciones de privacidad como GDPR

Referencias

Este artículo cita 26 referencias relacionadas que cubren múltiples campos incluyendo anonimización de voz, privacidad de contenido e identificación de autoría, proporcionando una base teórica sólida para la investigación. Las referencias clave incluyen trabajos relacionados con el Desafío VoicePrivacy, el modelo de identificación de autoría LUAR y avances recientes en tecnología de anonimización de voz.

Evaluación General: Este es un artículo de investigación de alta calidad que identifica y resuelve un problema importante en el campo de la anonimización de voz. El método es innovador, los experimentos son suficientes y los resultados son convincentes, con valor significativo tanto para la comunidad académica como para la industria. Aunque existen algunas limitaciones, abre nuevas direcciones de investigación para la protección de privacidad en audio de larga duración.