2025-11-17T01:43:13.245415

Target speaker anonymization in multi-speaker recordings

Tomashenko, Yamagishi, Wang et al.
Most of the existing speaker anonymization research has focused on single-speaker audio, leading to the development of techniques and evaluation metrics optimized for such condition. This study addresses the significant challenge of speaker anonymization within multi-speaker conversational audio, specifically when only a single target speaker needs to be anonymized. This scenario is highly relevant in contexts like call centers, where customer privacy necessitates anonymizing only the customer's voice in interactions with operators. Conventional anonymization methods are often not suitable for this task. Moreover, current evaluation methodology does not allow us to accurately assess privacy protection and utility in this complex multi-speaker scenario. This work aims to bridge these gaps by exploring effective strategies for targeted speaker anonymization in conversational audio, highlighting potential problems in their development and proposing corresponding improved evaluation methodologies.
academic

Anonimización de Hablante Objetivo en Grabaciones Multilocutor

Información Básica

  • ID del Artículo: 2510.09307
  • Título: Target Speaker Anonymization in Multi-Speaker Recordings
  • Autores: Natalia Tomashenko¹, Junichi Yamagishi², Xin Wang², Yun Liu², Emmanuel Vincent¹
  • Instituciones: ¹Université de Lorraine, CNRS, Inria, Loria, Francia; ²National Institute of Informatics, Tokio, Japón
  • Clasificación: eess.AS (Procesamiento de Audio y Voz), cs.CL (Lingüística Computacional), cs.CR (Criptografía y Seguridad)
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09307

Resumen

La investigación existente sobre anonimización de hablantes se ha centrado principalmente en audio de un único hablante, lo que ha resultado en que tanto las técnicas como las métricas de evaluación se optimicen para estas condiciones. Este estudio aborda el desafío significativo de la anonimización de hablantes en audio de conversaciones multilocutor, particularmente en escenarios donde solo es necesario anonimizar a un hablante objetivo específico. Este escenario es altamente relevante en entornos como centros de llamadas, donde la privacidad del cliente debe protegerse anonimizando solo la voz del cliente en la interacción con el operador. Los métodos de anonimización tradicionales a menudo resultan inadecuados para esta tarea. Además, los métodos de evaluación actuales no pueden evaluar con precisión la protección de privacidad y la utilidad en estos escenarios complejos multilocutor. Este trabajo tiene como objetivo cerrar estas brechas explorando estrategias efectivas de anonimización de hablante objetivo en audio de conversaciones, destacando los problemas potenciales en su desarrollo y proponiendo métodos de evaluación mejorados.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la anonimización selectiva de un hablante objetivo específico en grabaciones de conversaciones multilocutor, una tarea completamente nueva y desafiante. Las técnicas tradicionales de anonimización de hablantes se han diseñado principalmente para audio de un único hablante y no pueden manejar efectivamente las necesidades de anonimización selectiva en escenarios multilocutor.

Importancia y Valor de Aplicación

  1. Requisitos de Cumplimiento Legal: Con la implementación de regulaciones de protección de privacidad como el GDPR, la protección de privacidad de datos de voz se ha vuelto crítica
  2. Escenarios de Aplicación Práctica: En centros de llamadas, consultas médicas y otros escenarios, es necesario proteger la privacidad del cliente mientras se retiene la información del personal de servicio
  3. Desafíos Técnicos: Los datos de voz contienen información personal abundante (edad, género, estado de salud, estado emocional, etc.), requiriendo protección de privacidad mientras se mantiene el contenido lingüístico

Limitaciones de Métodos Existentes

  1. Limitaciones Técnicas: Los métodos de anonimización existentes no pueden dirigirse selectivamente a hablantes específicos en audio mixto
  2. Evaluación Insuficiente: Faltan métricas de evaluación de protección de privacidad y utilidad para escenarios multilocutor
  3. Aplicación Limitada: Los métodos tradicionales funcionan mal en voz superpuesta y escenarios de conversación compleja

Contribuciones Principales

  1. Propuesta del Marco de Anonimización de Hablante Objetivo (TSA): Aborda sistemáticamente por primera vez el problema de anonimización selectiva en conversaciones multilocutor
  2. Desarrollo de Método de Evaluación Integral: Establece un sistema de evaluación de protección de privacidad y utilidad para escenarios de anonimización multilocutor
  3. Verificación Experimental y Análisis: Realiza evaluación experimental exhaustiva basada en dos métodos de extracción de hablante objetivo de última generación
  4. Identificación de Desafíos Clave: Analiza profundamente las limitaciones inherentes y desafíos técnicos de la tarea, proporcionando orientación para investigación futura

Explicación Detallada del Método

Definición de la Tarea

Entrada: Señal de audio mixto que contiene múltiples hablantes
Salida: Audio mixto con anonimización aplicada solo al hablante objetivo
Restricciones: Mantener la voz original de hablantes no objetivo sin cambios, preservar la inteligibilidad y utilidad general de la conversación

Arquitectura del Modelo

Diseño del Marco TSA

TSA adopta un enfoque de tubería de tres pasos:

  1. Extracción de Hablante Objetivo (TSE):
    • Utiliza vectores de incrustación de hablante preentrenados para identificar al hablante objetivo
    • Estima una máscara suave de valor complejo para separar el espectrograma de tiempo-frecuencia del hablante objetivo
    • Extrae segmentos de voz del hablante objetivo del audio mixto
  2. Anonimización de Hablante:
    • Aplica anonimización solo a la voz extraída del hablante objetivo
    • Utiliza un sistema de anonimización basado en características de cuello de botella de cuantificación vectorial (VQ-BN)
    • Sintetiza voz anonimizada a través de la red HiFi-GAN
  3. Recombinación de Voz:
    • Combina la voz del hablante objetivo anonimizada con la voz original de hablantes no objetivo
    • Genera el audio mixto parcialmente anonimizado final

Modelos de Extracción de Hablante Objetivo

TSE Basado en Conformer:

  • Combina capas convolucionales y mecanismos de autoatención para procesar espectrogramas STFT
  • Reconstruye las partes real e imaginaria del espectrograma STFT del hablante objetivo
  • Integra incrustaciones de hablante para identificar y enfocarse en el hablante objetivo

TSE WeSep BSRNN:

  • Particiona explícitamente el espectrograma de audio en múltiples bandas de frecuencia
  • Realiza modelado de grano fino de características espectrales únicas de cada banda
  • Basado en arquitectura de red neuronal recurrente con partición de banda

Puntos de Innovación Técnica

  1. Marco Pionero: Primera solución integral de anonimización de hablante objetivo para escenarios multilocutor
  2. Diseño Modular: Diseño desacoplado de módulos TSE y anonimización, facilitando optimización y sustitución
  3. Innovación en Sistema de Evaluación: Introduce nuevas métricas como tcpWER, evaluando integralmente protección de privacidad y utilidad
  4. Modelado de Atacante: Considera escenarios de atacante semi-informado, proporcionando evaluación de privacidad más realista

Configuración Experimental

Conjunto de Datos

  • SparseLibri2Mix: Conjunto de datos multilocutor construido basado en el subconjunto test-clean de LibriSpeech
  • Condiciones de Superposición: 5 grados diferentes de superposición (20%, 40%, 60%, 80%, 100%)
  • Escala de Datos: 500 archivos mixtos por condición, 2500 archivos totales (aproximadamente 5 horas de voz)
  • Cantidad de Hablantes: 40 hablantes, con el primer hablante como hablante objetivo

Métricas de Evaluación

Evaluación de Protección de Privacidad

  • Tasa de Error Igual (EER): Evalúa la efectividad de anonimización usando sistema de verificación automática de hablante (ASV)
  • Modelo de Atacante: Atacante semi-informado con acceso al sistema de anonimización y datos de entrenamiento

Evaluación de Utilidad

  • Métrica Principal: Tasa de Error de Permutación de Palabras Restringida en Tiempo (tcpWER)
  • Métricas Auxiliares:
    • Tasa de Error de Diarización (DER)
    • Tasa de Error de Palabras (WER) del ASR del hablante objetivo
    • Relación de Distorsión de Señal Invariante en Escala (SI-SDR)

Métodos de Comparación

  • Sistema de Anonimización: Sistema de línea base B5 del Desafío VoicePrivacy 2024
  • Modelos TSE: TSE Basado en Conformer vs. TSE WeSep BSRNN
  • Modelos de Evaluación: Sistema ASV ECAPA-TDNN, Sistema ASR DiCoW

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento de Modelos TSE

Tasa de Superposición (%)20406080100Promedio
TSE Conformer17.915.814.614.014.015.3
TSE WeSep BSRNN18.617.517.216.716.217.2

Efectividad de Protección de Privacidad

  • Escenario de Hablante Único: EER aumenta de 3.0% a 32.4% después de anonimización
  • Escenario Multilocutor:
    • TSE Conformer: EER promedio 36.4%
    • TSE WeSep BSRNN: EER promedio 36.9%
  • Mejora de Privacidad: Mejora de 12-14% en comparación con escenario de hablante único

Mantenimiento de Utilidad

  • Resultados tcpWER:
    • TSE Conformer: promedio 17.8%
    • TSE WeSep BSRNN: promedio 14.6% (superior)
  • Resultados DER: WeSep BSRNN supera a Conformer en todas las condiciones de superposición

Experimentos de Ablación

Impacto de Calidad TSE

  1. Extracción de Señal Original: El proceso TSE causa disminución significativa relativa en EER y WER en comparación con la señal mixta original
  2. Impacto de Anonimización: WER aumenta aún más después de anonimización, principalmente debido a errores de inserción causados por señal residual de hablantes no objetivo
  3. Impacto de Grado de Superposición: El rendimiento TSE disminuye con el aumento de superposición, pero el efecto de protección de privacidad permanece relativamente estable

Análisis de Estrategia de Atacante

  • Selección de Señal de Referencia: El ataque usando señal de referencia original es más efectivo que usando señal de referencia anonimizada
  • Consistencia de Modelo TSE: El ataque es más efectivo cuando el atacante usa el mismo modelo TSE que el usuario

Hallazgos Experimentales

  1. TSE es Cuello de Botella Crítico: La calidad TSE impacta directamente la protección de privacidad y utilidad final
  2. Desafío de Voz Superpuesta: El rendimiento TSE disminuye significativamente bajo condiciones de alta tasa de superposición
  3. Problema de Error de Inserción: La señal residual de hablantes no objetivo causa aumento en errores de inserción de ASR
  4. Compensación Privacidad-Utilidad: Existe compensación inherente entre protección de privacidad y utilidad de voz

Trabajo Relacionado

Investigación en Anonimización de Hablantes

  1. Métodos de Procesamiento de Señales: Métodos de transformación simple como coeficientes McAdams, desplazamiento de tono
  2. Métodos de Conversión de Voz Neural: Técnicas de anonimización basadas en aprendizaje de representación desacoplada
  3. Desafío VoicePrivacy: Ha impulsado el desarrollo de tecnología de anonimización de hablante único

Extracción de Hablante Objetivo

  1. Métodos de Aprendizaje Profundo: Técnicas de separación de voz basadas en redes neuronales profundas
  2. Mecanismos de Atención: Mecanismos de atención guiados por incrustación de hablante
  3. Tecnología de Partición de Banda: Métodos avanzados de procesamiento de dominio de frecuencia como BSRNN

Investigación en Escenarios Multilocutor

La investigación existente sobre anonimización multilocutor es extremadamente limitada; este artículo es trabajo pionero en el campo.

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Técnica: El marco TSA puede lograr anonimización selectiva de hablante objetivo en escenarios multilocutor
  2. Compensación de Rendimiento: Existe compensación entre protección de privacidad, calidad de voz y complejidad computacional
  3. Importancia de Evaluación: Las nuevas métricas de evaluación son críticas para evaluar con precisión la efectividad de anonimización multilocutor
  4. Espacio de Mejora: Los métodos actuales aún tienen espacio significativo para mejora en mantenimiento de utilidad

Limitaciones

  1. Dependencia TSE: El rendimiento del método depende severamente de la calidad del módulo TSE
  2. Complejidad Computacional: La tubería de tres pasos aumenta la complejidad del sistema y gastos computacionales
  3. Disminución de Utilidad: tcpWER muestra disminución notable en comparación con audio original
  4. Limitación de Conjunto de Datos: Los experimentos se realizan solo en conjunto de datos simulado, faltando validación en datos de conversación real

Direcciones Futuras

  1. Entrenamiento Extremo a Extremo: Entrenamiento conjunto de módulos TSE y anonimización para optimizar rendimiento general
  2. Mejora TSE: Desarrollar modelos TSE especializados optimizados para tarea de anonimización
  3. Procesamiento en Tiempo Real: Explorar soluciones TSA en tiempo real o casi tiempo real
  4. Anonimización Multimodal: Combinar información visual para protección de privacidad multimodal

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera solución sistemática para anonimización de hablante objetivo multilocutor, llenando brecha de investigación importante
  2. Método Completo: Proporciona solución completa desde marco técnico hasta método de evaluación
  3. Experimentación Exhaustiva: Experimentos de comparación completos con múltiples modelos TSE y múltiples condiciones de superposición
  4. Análisis Profundo: Análisis detallado de contribución de cada módulo y limitaciones del sistema
  5. Significado Práctico: Aborda necesidades urgentes de escenarios de aplicación práctica como centros de llamadas

Insuficiencias

  1. Limitación de Rendimiento: tcpWER disminuye considerablemente en comparación con audio original, utilidad requiere mejora
  2. Eficiencia Computacional: Complejidad computacional de tubería de tres pasos es alta, desfavorable para aplicación en tiempo real
  3. Limitación de Datos: Falta validación en datos de conversación real
  4. Modelo de Atacante: Modelo de atacante es relativamente simple, no considera estrategias de ataque más complejas
  5. Evaluación de Privacidad: Resultado EER de 36-37% indica riesgo de fuga de privacidad aún presente

Impacto

  1. Contribución Académica: Abre nueva dirección de investigación en anonimización de hablante objetivo multilocutor
  2. Valor Práctico: Proporciona solución de protección de privacidad para industrias como centros de llamadas y medicina
  3. Impulso Tecnológico: Promueve desarrollo de fusión de tecnología TSE y anonimización de voz
  4. Establecimiento de Estándares: Proporciona referencia para establecimiento de estándares de evaluación y puntos de referencia relacionados

Escenarios Aplicables

  1. Centros de Llamadas: Proteger privacidad del cliente mientras se mantiene capacidad de análisis de calidad de servicio
  2. Consulta Médica: Anonimizar voz de paciente para investigación médica y propósitos de capacitación
  3. Grabación Legal: Procesamiento de grabación de tribunal para proteger privacidad de partes interesadas
  4. Capacitación Educativa: Anonimizar voz de estudiante para propósitos de enseñanza e investigación

Referencias

Este artículo cita 31 referencias relacionadas, cubriendo múltiples campos relacionados incluyendo protección de privacidad de voz, anonimización de hablantes, extracción de hablante objetivo, reconocimiento automático de voz, proporcionando base teórica sólida para la investigación.


Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribución pionera en el importante y desafiante problema de protección de privacidad de voz multilocutor. Aunque hay espacio para mejora en rendimiento técnico, su diseño de marco innovador, método de evaluación integral y análisis profundo establecen base importante para investigación posterior en el campo.