We present a transformer-based architecture for voice separation of a target speaker from multiple other speakers and ambient noise. We achieve this by using two separate neural networks: (A) An enrolment network designed to craft speaker-specific embeddings, exploiting various combinations of audio and visual modalities; and (B) A separation network that accepts both the noisy signal and enrolment vectors as inputs, outputting the clean signal of the target speaker. The novelties are: (i) the enrolment vector can be produced from: audio only, audio-visual data (using lip movements) or visual data alone (using lip movements from silent video); and (ii) the flexibility in conditioning the separation on multiple positive and negative enrolment vectors. We compare with previous methods and obtain superior performance.
- ID del Artículo: 2501.01401
- Título: VoiceVector: Multimodal Enrolment Vectors for Speaker Separation
- Autores: Akam Rahimi, Triantafyllos Afouras, Andrew Zisserman (Grupo VGG, Universidad de Oxford)
- Clasificación: eess.AS (Ingeniería Eléctrica y Ciencias de Sistemas - Procesamiento de Audio y Voz)
- Fecha de Publicación: 2 de enero de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2501.01401
Este artículo propone una arquitectura basada en Transformer para separar la voz del hablante objetivo de múltiples hablantes y ruido ambiental. El método utiliza dos redes neuronales independientes: (A) una red de inscripción que aprovecha diversas combinaciones de modalidades de audio y visuales para generar vectores de incrustación específicos del hablante; (B) una red de separación que acepta la señal ruidosa y vectores de inscripción como entrada, produciendo la señal limpia del hablante objetivo. Las innovaciones principales incluyen: (i) los vectores de inscripción pueden generarse a partir de datos de solo audio, audiovisual (utilizando movimientos labiales) o solo visual (utilizando movimientos labiales de video silencioso); (ii) flexibilidad para usar múltiples vectores de inscripción positivos y negativos durante el proceso de separación.
La separación de voz es un desafío fundamental en el procesamiento de audio, particularmente en entornos ruidosos y escenarios multilocutor. Las aplicaciones existentes como audífonos, sistemas activados por voz y videoconferencias dependen significativamente del rendimiento de la separación de voz.
- Métodos basados en incrustaciones de audio: Métodos como VoiceFilter dependen de audio limpio y sin ruido para generar incrustaciones de hablante, lo cual es difícil de obtener en entornos ruidosos reales.
- Métodos audiovisuales: Métodos como Looking to Listen y VoiceFormer, aunque aprovechan señales visuales (movimientos labiales), requieren información visual continua durante el proceso de separación, con rendimiento degradado cuando los datos visuales están ocluidos o ausentes.
Este artículo tiene como objetivo combinar las ventajas de los métodos de acondicionamiento de audio y visual, mientras evita los desafíos inherentes de cada uno. Mediante un diseño de dos etapas: la fase de inscripción puede aprovechar información multimodal para generar representaciones robustas del hablante, mientras que la fase de separación depende únicamente de datos de audio, mejorando la eficiencia computacional y la robustez ante cambios en la información visual.
- Red de Inscripción Multimodal: Se propone una red de incrustación de hablante capaz de procesar entradas de audio, audiovisual y puramente visual, con soporte innovador para generar vectores de inscripción únicamente a partir de video silencioso.
- Acondicionamiento con Muestras Positivas y Negativas: Se introduce un mecanismo de aprendizaje contrastivo que utiliza simultáneamente vectores de inscripción positivos (hablante objetivo) y negativos (hablantes no objetivo).
- Ventajas de la Arquitectura de Dos Etapas: La fase de separación es completamente independiente de la información visual, abordando las limitaciones de los métodos audiovisuales tradicionales cuando falta información visual.
- Mejora de Rendimiento: Se logra un rendimiento superior a los métodos existentes en los conjuntos de datos LRS3 y LibriSpeech.
Dado un señal de audio mixto que contiene el hablante objetivo, otros hablantes y ruido ambiental, el objetivo es separar los componentes de voz del hablante objetivo con características acústicas específicas, mientras se filtran las voces competidoras y el ruido ambiental.
Red Específica de Audio (Figura 1a):
- Utiliza el modelo ECAPA-TDNN preentrenado como extractor de características de hablante
- Entrada: espectrograma de audio limpio S(f,t)=STFT(ac)
- Salida: incrustación de hablante de 192 dimensiones Sac∈R192
Red Audiovisual (Figura 1b):
- Codificación de audio: Ea∈Rta×768
- Codificación de video (movimientos labiales): Ev∈Rtv×512
- Codificación de imagen facial: Ef∈R128
- Fusión de características: F(Ea,Ev,Ef)=(Ea;Ev;Ef)∈R(ta+tv+1)×768
- Procesamiento de características fusionadas mediante codificador Transformer de tres capas
- Salida: vector de inscripción de 192 dimensiones Savf∈R192
Red Puramente Visual (Figura 1b):
- Utiliza únicamente información visual (movimientos labiales y/o imagen facial)
- Salida: Svf=SpeakerExtractor(Transformer([Ev;Ef]))
- Basada en la arquitectura VoiceFormer, que incluye codificador-decodificador de audio y codificador de incrustación de hablante
- Entrada: forma de onda de audio ruidoso y múltiples vectores de inscripción positivos y negativos
- Utiliza codificador Transformer de tres capas para fusionar audio y codificación de hablante
- Mediante mecanismo de atención, amplifica características que coinciden con el hablante objetivo e inhibe características de hablantes no objetivo
- Las conexiones de salto entre codificador y decodificador preservan información de bajo y alto nivel
- Estrategia de Entrenamiento con Destilación de Conocimiento: La red de inscripción audiovisual aprende mediante destilación de conocimiento para imitar la salida de la red específica de audio, asegurando consistencia entre modalidades.
- Flexibilidad Multimodal: Admite la generación de vectores de inscripción a partir de diferentes combinaciones de modalidades, incluyendo el modo puramente visual innovador.
- Mecanismo de Aprendizaje Contrastivo: El uso simultáneo de muestras positivas y negativas proporciona una capacidad de discriminación de hablante más fuerte.
- LRS3: Conjunto de datos audiovisual a gran escala de videos TEDx públicos, que incluye estilos de habla y temas diversos
- LibriSpeech: Conjunto de datos de audio puro a gran escala de audiolibros de dominio público
- Los hablantes en el conjunto de prueba no se han visto durante el entrenamiento, asegurando la evaluación de la capacidad de generalización
- SDR (Relación Señal-Distorsión): Mide la calidad de la salida de separación
- STOI (Inteligibilidad Objetiva a Corto Plazo): Cuantifica la inteligibilidad de la señal
- PESQ (Evaluación Perceptual de la Calidad del Habla): Refleja la puntuación de percepción del oyente
- Métodos de Audio: VoiceFilter
- Métodos Audiovisuales: Conversation, VisualVoice, VoiceFormer
- Implementado en PyTorch
- Datos de video: 25 FPS, recorte facial en la región de la boca del hablante
- Audio: monoaural, frecuencia de muestreo de 16 kHz
- Transformer: 3 capas, 8 cabezas de atención, dimensión del modelo 532
- Datos de entrenamiento: fragmentos de audio de 4 segundos, recorte aleatorio y aumento de datos que incluye ajustes de velocidad, tono y decibelios
Efecto de Vectores de Incrustación Positivos y Negativos (Tabla 1):
| Configuración | 1P-0N | 1P-1N | 3P-2N | 3P-3N |
|---|
| SDR↑ | 13.8 | 14.0 | 14.4 | 14.5 |
Los resultados muestran que aumentar el número de vectores de inscripción positivos y negativos mejora el rendimiento de separación.
Comparación Multimodal (Tabla 2):
| Modalidad | Audio | Visual | SDR↑ | STOI↑ | PESQ↑ |
|---|
| Audio limpio | ✓ | ✗ | 14.4 | 91 | 2.52 |
| Audio limpio + Labios | ✓ | ✓ | 14.5 | 91 | 2.55 |
| Audio ruidoso | ✓ | ✗ | 6.3 | 58 | 1.82 |
| Audio ruidoso + Labios | ✓ | ✓ | 13.7 | 88 | 2.45 |
| Solo movimientos labiales | ✗ | ✓ | 11.1 | 77 | 2.25 |
| Labios + Cara | ✗ | ✓ | 12.0 | 80 | 2.35 |
Comparación con Métodos SOTA (Tabla 3):
| Método | Conjunto de Datos | SDR↑ | STOI↑ | PESQ↑ |
|---|
| VoiceFormer | LRS3 | 14.4 | 92 | 2.42 |
| VoiceVector | LRS3 | 14.5 | 91 | 2.52 |
| VoiceFilter | LibriSpeech | 12.6 | - | - |
| VoiceVector | LibriSpeech | 13.1 | 89 | 2.12 |
- Efectividad del Modo Puramente Visual: El uso únicamente de movimientos labiales logra un rendimiento de SDR 11.1, demostrando la importancia de la información visual.
- Robustez ante Ruido: Cuando se combinan señales visuales, el rendimiento del audio ruidoso mejora significativamente de SDR 6.3 a 13.7.
- Generalización entre Conjuntos de Datos: Supera los métodos de referencia incluso en el conjunto de datos LibriSpeech no entrenado.
- Métodos de Acondicionamiento Multimodal: Aprovechan señales visuales (principalmente movimientos labiales) para guiar la separación
- Métodos de Incrustación Específica del Hablante: Generan incrustaciones de hablante a partir de muestras de voz limpia para acondicionamiento
- En comparación con métodos audiovisuales tradicionales: la fase de separación no requiere información visual, mejorando robustez y eficiencia computacional
- En comparación con métodos de solo audio: proporciona capacidad de discriminación de hablante más fuerte mediante vectores de inscripción multimodal
- Introduce mecanismo de muestras negativas: proporciona mejor efecto de aprendizaje contrastivo en comparación con métodos anteriores que utilizaban solo muestras positivas
- La arquitectura de dos etapas propuesta combina exitosamente las ventajas del acondicionamiento de audio y visual
- Los vectores de inscripción multimodal muestran buen rendimiento en diversos escenarios
- El mecanismo de aprendizaje contrastivo con muestras positivas y negativas mejora efectivamente el rendimiento de separación
- Se logra un rendimiento superior a los métodos existentes en conjuntos de datos estándar
- Dependencia de Datos Sintéticos: Principalmente entrenado y probado en audio mixto sintético, con posible brecha de dominio respecto a entornos de ruido real
- Requisitos de Calidad Visual: El modo puramente visual aún requiere video de movimientos labiales claros
- Complejidad Computacional: La arquitectura de dos etapas aumenta la complejidad general del sistema
- Validación y optimización en entornos de ruido real
- Exploración de fusión de modalidades visuales adicionales (gestos, expresiones faciales)
- Investigación adicional de estrategias de optimización de extremo a extremo
- Fuerte Innovación Técnica: Primera implementación de inscripción de hablante puramente visual, abriendo nuevas direcciones en procesamiento de voz visual
- Diseño de Arquitectura Razonable: El diseño de dos etapas equilibra ingeniosamente rendimiento y practicidad
- Experimentación Completa: Evaluación integral que abarca múltiples combinaciones de modalidades y métodos de comparación
- Mejora de Rendimiento Evidente: Supera métodos SOTA existentes en múltiples métricas
- Validación Insuficiente en Escenarios Reales: Principalmente basado en datos sintéticos, carece de validación en entornos de ruido real
- Análisis de Eficiencia Computacional Faltante: No proporciona análisis detallado de complejidad computacional y tiempo de inferencia
- Análisis Insuficiente de Casos de Fallo: Carece de análisis profundo de las limitaciones del método
- Valor Académico: Proporciona nuevas perspectivas de investigación para separación de voz multimodal
- Valor Práctico: Tiene valor potencial en aplicaciones reales como audífonos y videoconferencias
- Reproducibilidad: Proporciona detalles de implementación detallados que facilitan la reproducción de investigación
- Sistemas de Videoconferencia: Aprovecha información visual de participantes para separación de voz
- Dispositivos de Audición Inteligente: Destaca la voz del hablante objetivo en entornos ruidosos
- Procesamiento de Contenido Multimedia: Extrae voz de hablantes específicos de contenido audiovisual
El artículo cita trabajos importantes en el campo de la separación de voz, incluyendo:
- Serie VoiceFilter: Métodos de separación basados en incrustación de hablante
- Looking to Listen, VoiceFormer: Trabajos representativos en separación audiovisual
- ECAPA-TDNN: Modelo clásico en reconocimiento de hablante
- LRS3, LibriSpeech: Conjuntos de datos estándar en procesamiento de voz
Evaluación General: Este es un artículo excelente con fuerte innovación técnica y diseño experimental razonable. Mediante un diseño de arquitectura de dos etapas ingenioso y una estrategia de fusión multimodal, logra mejoras significativas de rendimiento en la tarea de separación de voz. Particularmente, la aplicación innovadora de modalidad puramente visual proporciona nuevas direcciones de investigación para este campo. Aunque hay espacio para mejora en la validación en escenarios reales, la calidad general del trabajo es alta, con importante valor académico y práctico.