2025-11-17T01:43:13.245415

Target speaker anonymization in multi-speaker recordings

Tomashenko, Yamagishi, Wang et al.

Most of the existing speaker anonymization research has focused on single-speaker audio, leading to the development of techniques and evaluation metrics optimized for such condition. This study addresses the significant challenge of speaker anonymization within multi-speaker conversational audio, specifically when only a single target speaker needs to be anonymized. This scenario is highly relevant in contexts like call centers, where customer privacy necessitates anonymizing only the customer's voice in interactions with operators. Conventional anonymization methods are often not suitable for this task. Moreover, current evaluation methodology does not allow us to accurately assess privacy protection and utility in this complex multi-speaker scenario. This work aims to bridge these gaps by exploring effective strategies for targeted speaker anonymization in conversational audio, highlighting potential problems in their development and proposing corresponding improved evaluation methodologies.

academic

Anonimización de Hablante Objetivo en Grabaciones Multilocutor

Información Básica

ID del Artículo: 2510.09307
Título: Target Speaker Anonymization in Multi-Speaker Recordings
Autores: Natalia Tomashenko¹, Junichi Yamagishi², Xin Wang², Yun Liu², Emmanuel Vincent¹
Instituciones: ¹Université de Lorraine, CNRS, Inria, Loria, Francia; ²National Institute of Informatics, Tokio, Japón
Clasificación: eess.AS (Procesamiento de Audio y Voz), cs.CL (Lingüística Computacional), cs.CR (Criptografía y Seguridad)
Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09307

Resumen

La investigación existente sobre anonimización de hablantes se ha centrado principalmente en audio de un único hablante, lo que ha resultado en que tanto las técnicas como las métricas de evaluación se optimicen para estas condiciones. Este estudio aborda el desafío significativo de la anonimización de hablantes en audio de conversaciones multilocutor, particularmente en escenarios donde solo es necesario anonimizar a un hablante objetivo específico. Este escenario es altamente relevante en entornos como centros de llamadas, donde la privacidad del cliente debe protegerse anonimizando solo la voz del cliente en la interacción con el operador. Los métodos de anonimización tradicionales a menudo resultan inadecuados para esta tarea. Además, los métodos de evaluación actuales no pueden evaluar con precisión la protección de privacidad y la utilidad en estos escenarios complejos multilocutor. Este trabajo tiene como objetivo cerrar estas brechas explorando estrategias efectivas de anonimización de hablante objetivo en audio de conversaciones, destacando los problemas potenciales en su desarrollo y proponiendo métodos de evaluación mejorados.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es la anonimización selectiva de un hablante objetivo específico en grabaciones de conversaciones multilocutor, una tarea completamente nueva y desafiante. Las técnicas tradicionales de anonimización de hablantes se han diseñado principalmente para audio de un único hablante y no pueden manejar efectivamente las necesidades de anonimización selectiva en escenarios multilocutor.

Importancia y Valor de Aplicación

Requisitos de Cumplimiento Legal: Con la implementación de regulaciones de protección de privacidad como el GDPR, la protección de privacidad de datos de voz se ha vuelto crítica
Escenarios de Aplicación Práctica: En centros de llamadas, consultas médicas y otros escenarios, es necesario proteger la privacidad del cliente mientras se retiene la información del personal de servicio
Desafíos Técnicos: Los datos de voz contienen información personal abundante (edad, género, estado de salud, estado emocional, etc.), requiriendo protección de privacidad mientras se mantiene el contenido lingüístico

Limitaciones de Métodos Existentes

Limitaciones Técnicas: Los métodos de anonimización existentes no pueden dirigirse selectivamente a hablantes específicos en audio mixto
Evaluación Insuficiente: Faltan métricas de evaluación de protección de privacidad y utilidad para escenarios multilocutor
Aplicación Limitada: Los métodos tradicionales funcionan mal en voz superpuesta y escenarios de conversación compleja

Contribuciones Principales

Propuesta del Marco de Anonimización de Hablante Objetivo (TSA): Aborda sistemáticamente por primera vez el problema de anonimización selectiva en conversaciones multilocutor
Desarrollo de Método de Evaluación Integral: Establece un sistema de evaluación de protección de privacidad y utilidad para escenarios de anonimización multilocutor
Verificación Experimental y Análisis: Realiza evaluación experimental exhaustiva basada en dos métodos de extracción de hablante objetivo de última generación
Identificación de Desafíos Clave: Analiza profundamente las limitaciones inherentes y desafíos técnicos de la tarea, proporcionando orientación para investigación futura

Explicación Detallada del Método

Definición de la Tarea

Entrada: Señal de audio mixto que contiene múltiples hablantes
Salida: Audio mixto con anonimización aplicada solo al hablante objetivo
Restricciones: Mantener la voz original de hablantes no objetivo sin cambios, preservar la inteligibilidad y utilidad general de la conversación

Arquitectura del Modelo

Diseño del Marco TSA

TSA adopta un enfoque de tubería de tres pasos:

Extracción de Hablante Objetivo (TSE):
- Utiliza vectores de incrustación de hablante preentrenados para identificar al hablante objetivo
- Estima una máscara suave de valor complejo para separar el espectrograma de tiempo-frecuencia del hablante objetivo
- Extrae segmentos de voz del hablante objetivo del audio mixto
Anonimización de Hablante:
- Aplica anonimización solo a la voz extraída del hablante objetivo
- Utiliza un sistema de anonimización basado en características de cuello de botella de cuantificación vectorial (VQ-BN)
- Sintetiza voz anonimizada a través de la red HiFi-GAN
Recombinación de Voz:
- Combina la voz del hablante objetivo anonimizada con la voz original de hablantes no objetivo
- Genera el audio mixto parcialmente anonimizado final

Modelos de Extracción de Hablante Objetivo

TSE Basado en Conformer:

Combina capas convolucionales y mecanismos de autoatención para procesar espectrogramas STFT
Reconstruye las partes real e imaginaria del espectrograma STFT del hablante objetivo
Integra incrustaciones de hablante para identificar y enfocarse en el hablante objetivo

TSE WeSep BSRNN:

Particiona explícitamente el espectrograma de audio en múltiples bandas de frecuencia
Realiza modelado de grano fino de características espectrales únicas de cada banda
Basado en arquitectura de red neuronal recurrente con partición de banda

Puntos de Innovación Técnica

Marco Pionero: Primera solución integral de anonimización de hablante objetivo para escenarios multilocutor
Diseño Modular: Diseño desacoplado de módulos TSE y anonimización, facilitando optimización y sustitución
Innovación en Sistema de Evaluación: Introduce nuevas métricas como tcpWER, evaluando integralmente protección de privacidad y utilidad
Modelado de Atacante: Considera escenarios de atacante semi-informado, proporcionando evaluación de privacidad más realista

Configuración Experimental

Conjunto de Datos

SparseLibri2Mix: Conjunto de datos multilocutor construido basado en el subconjunto test-clean de LibriSpeech
Condiciones de Superposición: 5 grados diferentes de superposición (20%, 40%, 60%, 80%, 100%)
Escala de Datos: 500 archivos mixtos por condición, 2500 archivos totales (aproximadamente 5 horas de voz)
Cantidad de Hablantes: 40 hablantes, con el primer hablante como hablante objetivo

Métricas de Evaluación

Evaluación de Protección de Privacidad

Tasa de Error Igual (EER): Evalúa la efectividad de anonimización usando sistema de verificación automática de hablante (ASV)
Modelo de Atacante: Atacante semi-informado con acceso al sistema de anonimización y datos de entrenamiento

Evaluación de Utilidad

Métrica Principal: Tasa de Error de Permutación de Palabras Restringida en Tiempo (tcpWER)
Métricas Auxiliares:
- Tasa de Error de Diarización (DER)
- Tasa de Error de Palabras (WER) del ASR del hablante objetivo
- Relación de Distorsión de Señal Invariante en Escala (SI-SDR)

Métodos de Comparación

Sistema de Anonimización: Sistema de línea base B5 del Desafío VoicePrivacy 2024
Modelos TSE: TSE Basado en Conformer vs. TSE WeSep BSRNN
Modelos de Evaluación: Sistema ASV ECAPA-TDNN, Sistema ASR DiCoW

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento de Modelos TSE

Tasa de Superposición (%)	20	40	60	80	100	Promedio
TSE Conformer	17.9	15.8	14.6	14.0	14.0	15.3
TSE WeSep BSRNN	18.6	17.5	17.2	16.7	16.2	17.2

Efectividad de Protección de Privacidad

Escenario de Hablante Único: EER aumenta de 3.0% a 32.4% después de anonimización
Escenario Multilocutor:
- TSE Conformer: EER promedio 36.4%
- TSE WeSep BSRNN: EER promedio 36.9%
Mejora de Privacidad: Mejora de 12-14% en comparación con escenario de hablante único

Mantenimiento de Utilidad

Resultados tcpWER:
- TSE Conformer: promedio 17.8%
- TSE WeSep BSRNN: promedio 14.6% (superior)
Resultados DER: WeSep BSRNN supera a Conformer en todas las condiciones de superposición

Experimentos de Ablación

Impacto de Calidad TSE

Extracción de Señal Original: El proceso TSE causa disminución significativa relativa en EER y WER en comparación con la señal mixta original
Impacto de Anonimización: WER aumenta aún más después de anonimización, principalmente debido a errores de inserción causados por señal residual de hablantes no objetivo
Impacto de Grado de Superposición: El rendimiento TSE disminuye con el aumento de superposición, pero el efecto de protección de privacidad permanece relativamente estable

Análisis de Estrategia de Atacante

Selección de Señal de Referencia: El ataque usando señal de referencia original es más efectivo que usando señal de referencia anonimizada
Consistencia de Modelo TSE: El ataque es más efectivo cuando el atacante usa el mismo modelo TSE que el usuario

Hallazgos Experimentales

TSE es Cuello de Botella Crítico: La calidad TSE impacta directamente la protección de privacidad y utilidad final
Desafío de Voz Superpuesta: El rendimiento TSE disminuye significativamente bajo condiciones de alta tasa de superposición
Problema de Error de Inserción: La señal residual de hablantes no objetivo causa aumento en errores de inserción de ASR
Compensación Privacidad-Utilidad: Existe compensación inherente entre protección de privacidad y utilidad de voz

Trabajo Relacionado

Investigación en Anonimización de Hablantes

Métodos de Procesamiento de Señales: Métodos de transformación simple como coeficientes McAdams, desplazamiento de tono
Métodos de Conversión de Voz Neural: Técnicas de anonimización basadas en aprendizaje de representación desacoplada
Desafío VoicePrivacy: Ha impulsado el desarrollo de tecnología de anonimización de hablante único

Extracción de Hablante Objetivo

Métodos de Aprendizaje Profundo: Técnicas de separación de voz basadas en redes neuronales profundas
Mecanismos de Atención: Mecanismos de atención guiados por incrustación de hablante
Tecnología de Partición de Banda: Métodos avanzados de procesamiento de dominio de frecuencia como BSRNN

Investigación en Escenarios Multilocutor

La investigación existente sobre anonimización multilocutor es extremadamente limitada; este artículo es trabajo pionero en el campo.

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: El marco TSA puede lograr anonimización selectiva de hablante objetivo en escenarios multilocutor
Compensación de Rendimiento: Existe compensación entre protección de privacidad, calidad de voz y complejidad computacional
Importancia de Evaluación: Las nuevas métricas de evaluación son críticas para evaluar con precisión la efectividad de anonimización multilocutor
Espacio de Mejora: Los métodos actuales aún tienen espacio significativo para mejora en mantenimiento de utilidad

Limitaciones

Dependencia TSE: El rendimiento del método depende severamente de la calidad del módulo TSE
Complejidad Computacional: La tubería de tres pasos aumenta la complejidad del sistema y gastos computacionales
Disminución de Utilidad: tcpWER muestra disminución notable en comparación con audio original
Limitación de Conjunto de Datos: Los experimentos se realizan solo en conjunto de datos simulado, faltando validación en datos de conversación real

Direcciones Futuras

Entrenamiento Extremo a Extremo: Entrenamiento conjunto de módulos TSE y anonimización para optimizar rendimiento general
Mejora TSE: Desarrollar modelos TSE especializados optimizados para tarea de anonimización
Procesamiento en Tiempo Real: Explorar soluciones TSA en tiempo real o casi tiempo real
Anonimización Multimodal: Combinar información visual para protección de privacidad multimodal

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera solución sistemática para anonimización de hablante objetivo multilocutor, llenando brecha de investigación importante
Método Completo: Proporciona solución completa desde marco técnico hasta método de evaluación
Experimentación Exhaustiva: Experimentos de comparación completos con múltiples modelos TSE y múltiples condiciones de superposición
Análisis Profundo: Análisis detallado de contribución de cada módulo y limitaciones del sistema
Significado Práctico: Aborda necesidades urgentes de escenarios de aplicación práctica como centros de llamadas

Insuficiencias

Limitación de Rendimiento: tcpWER disminuye considerablemente en comparación con audio original, utilidad requiere mejora
Eficiencia Computacional: Complejidad computacional de tubería de tres pasos es alta, desfavorable para aplicación en tiempo real
Limitación de Datos: Falta validación en datos de conversación real
Modelo de Atacante: Modelo de atacante es relativamente simple, no considera estrategias de ataque más complejas
Evaluación de Privacidad: Resultado EER de 36-37% indica riesgo de fuga de privacidad aún presente

Impacto

Contribución Académica: Abre nueva dirección de investigación en anonimización de hablante objetivo multilocutor
Valor Práctico: Proporciona solución de protección de privacidad para industrias como centros de llamadas y medicina
Impulso Tecnológico: Promueve desarrollo de fusión de tecnología TSE y anonimización de voz
Establecimiento de Estándares: Proporciona referencia para establecimiento de estándares de evaluación y puntos de referencia relacionados

Escenarios Aplicables

Centros de Llamadas: Proteger privacidad del cliente mientras se mantiene capacidad de análisis de calidad de servicio
Consulta Médica: Anonimizar voz de paciente para investigación médica y propósitos de capacitación
Grabación Legal: Procesamiento de grabación de tribunal para proteger privacidad de partes interesadas
Capacitación Educativa: Anonimizar voz de estudiante para propósitos de enseñanza e investigación

Referencias

Este artículo cita 31 referencias relacionadas, cubriendo múltiples campos relacionados incluyendo protección de privacidad de voz, anonimización de hablantes, extracción de hablante objetivo, reconocimiento automático de voz, proporcionando base teórica sólida para la investigación.

Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribución pionera en el importante y desafiante problema de protección de privacidad de voz multilocutor. Aunque hay espacio para mejora en rendimiento técnico, su diseño de marco innovador, método de evaluación integral y análisis profundo establecen base importante para investigación posterior en el campo.