2025-11-15T14:19:11.467059

VoiceVector: Multimodal Enrolment Vectors for Speaker Separation

Rahimi, Afouras, Zisserman

We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.

academic

VoiceVector: Vectores de Inscripción Multimodal para Separación de Hablantes

Información Básica

ID del Artículo: 2501.01401
Título: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
Autores: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (Grupo VGG, Universidad de Oxford)
Clasificación: eess.AS (Ingeniería Eléctrica y Ciencias de Sistemas - Procesamiento de Audio y Voz)
Fecha de Publicación: 2 de enero de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.01401

Resumen

Este artículo propone una arquitectura basada en Transformer para separar la voz del hablante objetivo de múltiples hablantes y ruido ambiental. El método utiliza dos redes neuronales independientes: (A) una red de inscripción que aprovecha diversas combinaciones de modalidades de audio y visuales para generar vectores de incrustación específicos del hablante; (B) una red de separación que acepta la señal ruidosa y vectores de inscripción como entrada, produciendo la señal limpia del hablante objetivo. Las innovaciones principales incluyen: (i) los vectores de inscripción pueden generarse a partir de datos de solo audio, audiovisual (utilizando movimientos labiales) o solo visual (utilizando movimientos labiales de video silencioso); (ii) flexibilidad para usar múltiples vectores de inscripción positivos y negativos durante el proceso de separación.

Contexto de Investigación y Motivación

Definición del Problema

La separación de voz es un desafío fundamental en el procesamiento de audio, particularmente en entornos ruidosos y escenarios multilocutor. Las aplicaciones existentes como audífonos, sistemas activados por voz y videoconferencias dependen significativamente del rendimiento de la separación de voz.

Limitaciones de Métodos Existentes

Métodos basados en incrustaciones de audio: Métodos como VoiceFilter dependen de audio limpio y sin ruido para generar incrustaciones de hablante, lo cual es difícil de obtener en entornos ruidosos reales.
Métodos audiovisuales: Métodos como Looking to Listen y VoiceFormer, aunque aprovechan señales visuales (movimientos labiales), requieren información visual continua durante el proceso de separación, con rendimiento degradado cuando los datos visuales están ocluidos o ausentes.

Motivación de la Investigación

Este artículo tiene como objetivo combinar las ventajas de los métodos de acondicionamiento de audio y visual, mientras evita los desafíos inherentes de cada uno. Mediante un diseño de dos etapas: la fase de inscripción puede aprovechar información multimodal para generar representaciones robustas del hablante, mientras que la fase de separación depende únicamente de datos de audio, mejorando la eficiencia computacional y la robustez ante cambios en la información visual.

Contribuciones Principales

Red de Inscripción Multimodal: Se propone una red de incrustación de hablante capaz de procesar entradas de audio, audiovisual y puramente visual, con soporte innovador para generar vectores de inscripción únicamente a partir de video silencioso.
Acondicionamiento con Muestras Positivas y Negativas: Se introduce un mecanismo de aprendizaje contrastivo que utiliza simultáneamente vectores de inscripción positivos (hablante objetivo) y negativos (hablantes no objetivo).
Ventajas de la Arquitectura de Dos Etapas: La fase de separación es completamente independiente de la información visual, abordando las limitaciones de los métodos audiovisuales tradicionales cuando falta información visual.
Mejora de Rendimiento: Se logra un rendimiento superior a los métodos existentes en los conjuntos de datos LRS3 y LibriSpeech.

Explicación Detallada del Método

Definición de la Tarea

Dado un señal de audio mixto que contiene el hablante objetivo, otros hablantes y ruido ambiental, el objetivo es separar los componentes de voz del hablante objetivo con características acústicas específicas, mientras se filtran las voces competidoras y el ruido ambiental.

Arquitectura del Modelo

1. Red de Inscripción de Hablante

Red Específica de Audio (Figura 1a):

Utiliza el modelo ECAPA-TDNN preentrenado como extractor de características de hablante
Entrada: espectrograma de audio limpio $S(f,t) = STFT(a_c)$
Salida: incrustación de hablante de 192 dimensiones $S_{ac} \in \mathbb{R}^{192}$

Red Audiovisual (Figura 1b):

Codificación de audio: $E_a \in \mathbb{R}^{t_a \times 768}$
Codificación de video (movimientos labiales): $E_v \in \mathbb{R}^{t_v \times 512}$
Codificación de imagen facial: $E_f \in \mathbb{R}^{128}$
Fusión de características: $F(E_a, E_v, E_f) = (E_a; E_v; E_f) \in \mathbb{R}^{(t_a+t_v+1) \times 768}$
Procesamiento de características fusionadas mediante codificador Transformer de tres capas
Salida: vector de inscripción de 192 dimensiones $S_{avf} \in \mathbb{R}^{192}$

Red Puramente Visual (Figura 1b):

Utiliza únicamente información visual (movimientos labiales y/o imagen facial)
Salida: $S_{vf} = \text{SpeakerExtractor}(\text{Transformer}([E_v; E_f]))$

2. Red de Separación de Hablantes

Basada en la arquitectura VoiceFormer, que incluye codificador-decodificador de audio y codificador de incrustación de hablante
Entrada: forma de onda de audio ruidoso y múltiples vectores de inscripción positivos y negativos
Utiliza codificador Transformer de tres capas para fusionar audio y codificación de hablante
Mediante mecanismo de atención, amplifica características que coinciden con el hablante objetivo e inhibe características de hablantes no objetivo
Las conexiones de salto entre codificador y decodificador preservan información de bajo y alto nivel

Puntos de Innovación Técnica

Estrategia de Entrenamiento con Destilación de Conocimiento: La red de inscripción audiovisual aprende mediante destilación de conocimiento para imitar la salida de la red específica de audio, asegurando consistencia entre modalidades.
Flexibilidad Multimodal: Admite la generación de vectores de inscripción a partir de diferentes combinaciones de modalidades, incluyendo el modo puramente visual innovador.
Mecanismo de Aprendizaje Contrastivo: El uso simultáneo de muestras positivas y negativas proporciona una capacidad de discriminación de hablante más fuerte.

Configuración Experimental

Conjuntos de Datos

LRS3: Conjunto de datos audiovisual a gran escala de videos TEDx públicos, que incluye estilos de habla y temas diversos
LibriSpeech: Conjunto de datos de audio puro a gran escala de audiolibros de dominio público
Los hablantes en el conjunto de prueba no se han visto durante el entrenamiento, asegurando la evaluación de la capacidad de generalización

Métricas de Evaluación

SDR (Relación Señal-Distorsión): Mide la calidad de la salida de separación
STOI (Inteligibilidad Objetiva a Corto Plazo): Cuantifica la inteligibilidad de la señal
PESQ (Evaluación Perceptual de la Calidad del Habla): Refleja la puntuación de percepción del oyente

Métodos de Comparación

Métodos de Audio: VoiceFilter
Métodos Audiovisuales: Conversation, VisualVoice, VoiceFormer

Detalles de Implementación

Implementado en PyTorch
Datos de video: 25 FPS, recorte facial en la región de la boca del hablante
Audio: monoaural, frecuencia de muestreo de 16 kHz
Transformer: 3 capas, 8 cabezas de atención, dimensión del modelo 532
Datos de entrenamiento: fragmentos de audio de 4 segundos, recorte aleatorio y aumento de datos que incluye ajustes de velocidad, tono y decibelios

Resultados Experimentales

Resultados Principales

Efecto de Vectores de Incrustación Positivos y Negativos (Tabla 1):

Configuración	1P-0N	1P-1N	3P-2N	3P-3N
SDR↑	13.8	14.0	14.4	14.5

Los resultados muestran que aumentar el número de vectores de inscripción positivos y negativos mejora el rendimiento de separación.

Comparación Multimodal (Tabla 2):

Modalidad	Audio	Visual	SDR↑	STOI↑	PESQ↑
Audio limpio	✓	✗	14.4	91	2.52
Audio limpio + Labios	✓	✓	14.5	91	2.55
Audio ruidoso	✓	✗	6.3	58	1.82
Audio ruidoso + Labios	✓	✓	13.7	88	2.45
Solo movimientos labiales	✗	✓	11.1	77	2.25
Labios + Cara	✗	✓	12.0	80	2.35

Comparación con Métodos SOTA (Tabla 3):

Método	Conjunto de Datos	SDR↑	STOI↑	PESQ↑
VoiceFormer	LRS3	14.4	92	2.42
VoiceVector	LRS3	14.5	91	2.52
VoiceFilter	LibriSpeech	12.6	-	-
VoiceVector	LibriSpeech	13.1	89	2.12

Hallazgos Clave

Efectividad del Modo Puramente Visual: El uso únicamente de movimientos labiales logra un rendimiento de SDR 11.1, demostrando la importancia de la información visual.
Robustez ante Ruido: Cuando se combinan señales visuales, el rendimiento del audio ruidoso mejora significativamente de SDR 6.3 a 13.7.
Generalización entre Conjuntos de Datos: Supera los métodos de referencia incluso en el conjunto de datos LibriSpeech no entrenado.

Trabajo Relacionado

Direcciones de Investigación Principales

Métodos de Acondicionamiento Multimodal: Aprovechan señales visuales (principalmente movimientos labiales) para guiar la separación
Métodos de Incrustación Específica del Hablante: Generan incrustaciones de hablante a partir de muestras de voz limpia para acondicionamiento

Ventajas de Este Artículo

En comparación con métodos audiovisuales tradicionales: la fase de separación no requiere información visual, mejorando robustez y eficiencia computacional
En comparación con métodos de solo audio: proporciona capacidad de discriminación de hablante más fuerte mediante vectores de inscripción multimodal
Introduce mecanismo de muestras negativas: proporciona mejor efecto de aprendizaje contrastivo en comparación con métodos anteriores que utilizaban solo muestras positivas

Conclusiones y Discusión

Conclusiones Principales

La arquitectura de dos etapas propuesta combina exitosamente las ventajas del acondicionamiento de audio y visual
Los vectores de inscripción multimodal muestran buen rendimiento en diversos escenarios
El mecanismo de aprendizaje contrastivo con muestras positivas y negativas mejora efectivamente el rendimiento de separación
Se logra un rendimiento superior a los métodos existentes en conjuntos de datos estándar

Limitaciones

Dependencia de Datos Sintéticos: Principalmente entrenado y probado en audio mixto sintético, con posible brecha de dominio respecto a entornos de ruido real
Requisitos de Calidad Visual: El modo puramente visual aún requiere video de movimientos labiales claros
Complejidad Computacional: La arquitectura de dos etapas aumenta la complejidad general del sistema

Direcciones Futuras

Validación y optimización en entornos de ruido real
Exploración de fusión de modalidades visuales adicionales (gestos, expresiones faciales)
Investigación adicional de estrategias de optimización de extremo a extremo

Evaluación Profunda

Fortalezas

Fuerte Innovación Técnica: Primera implementación de inscripción de hablante puramente visual, abriendo nuevas direcciones en procesamiento de voz visual
Diseño de Arquitectura Razonable: El diseño de dos etapas equilibra ingeniosamente rendimiento y practicidad
Experimentación Completa: Evaluación integral que abarca múltiples combinaciones de modalidades y métodos de comparación
Mejora de Rendimiento Evidente: Supera métodos SOTA existentes en múltiples métricas

Deficiencias

Validación Insuficiente en Escenarios Reales: Principalmente basado en datos sintéticos, carece de validación en entornos de ruido real
Análisis de Eficiencia Computacional Faltante: No proporciona análisis detallado de complejidad computacional y tiempo de inferencia
Análisis Insuficiente de Casos de Fallo: Carece de análisis profundo de las limitaciones del método

Impacto

Valor Académico: Proporciona nuevas perspectivas de investigación para separación de voz multimodal
Valor Práctico: Tiene valor potencial en aplicaciones reales como audífonos y videoconferencias
Reproducibilidad: Proporciona detalles de implementación detallados que facilitan la reproducción de investigación

Escenarios Aplicables

Sistemas de Videoconferencia: Aprovecha información visual de participantes para separación de voz
Dispositivos de Audición Inteligente: Destaca la voz del hablante objetivo en entornos ruidosos
Procesamiento de Contenido Multimedia: Extrae voz de hablantes específicos de contenido audiovisual

Referencias

El artículo cita trabajos importantes en el campo de la separación de voz, incluyendo:

Serie VoiceFilter: Métodos de separación basados en incrustación de hablante
Looking to Listen, VoiceFormer: Trabajos representativos en separación audiovisual
ECAPA-TDNN: Modelo clásico en reconocimiento de hablante
LRS3, LibriSpeech: Conjuntos de datos estándar en procesamiento de voz

Evaluación General: Este es un artículo excelente con fuerte innovación técnica y diseño experimental razonable. Mediante un diseño de arquitectura de dos etapas ingenioso y una estrategia de fusión multimodal, logra mejoras significativas de rendimiento en la tarea de separación de voz. Particularmente, la aplicación innovadora de modalidad puramente visual proporciona nuevas direcciones de investigación para este campo. Aunque hay espacio para mejora en la validación en escenarios reales, la calidad general del trabajo es alta, con importante valor académico y práctico.