This paper introduces a new training strategy to improve speech dereverberation systems in an unsupervised manner using only reverberant speech. Most existing algorithms rely on paired dry/reverberant data, which is difficult to obtain. Our approach uses limited acoustic information, like the reverberation time (RT60), to train a dereverberation system. Experimental results demonstrate that our method achieves more consistent performance across various objective metrics than the state-of-the-art.
academic
Desreverberación no supervisada del habla mediante modelo híbrido
Este artículo propone una nueva estrategia de entrenamiento para mejorar sistemas de desreverberación del habla de manera no supervisada utilizando únicamente señales de habla reverberada. Los algoritmos existentes dependen principalmente de datos pareados limpios/reverberados, que son difíciles de obtener. El método utiliza información acústica limitada (como el tiempo de reverberación RT60) para entrenar el sistema de desreverberación. Los resultados experimentales demuestran que el método presenta un rendimiento más consistente en varios indicadores objetivos en comparación con métodos de última generación.
Problema Central: En entornos interiores, las señales de habla se ven afectadas por reflexiones en paredes y difracción de obstáculos, produciendo fenómenos de reverberación que reducen la inteligibilidad de las grabaciones de habla. Es necesario desarrollar métodos de desreverberación para mitigar este impacto.
Importancia del Problema: La reverberación afecta gravemente la calidad e inteligibilidad del habla, requiriendo técnicas efectivas de desreverberación en aplicaciones como reconocimiento de voz y sistemas de comunicación.
Limitaciones de Métodos Existentes:
Los métodos discriminativos requieren grandes cantidades de datos pareados (limpio, reverberado), difíciles de obtener
Los métodos generativos, aunque requieren menos supervisión, aún necesitan datos de habla limpia, que son más difíciles de obtener que datos reverberados
Métodos como MetricGAN-U utilizan únicamente señales reverberadas, pero se basan en optimización de una métrica única, resultando en rendimiento no suficientemente integral
Motivación de la Investigación: Desarrollar un método de desreverberación no supervisado que utilice únicamente habla reverberada, aprovechando información acústica limitada como el tiempo de reverberación para el entrenamiento.
Marco de Entrenamiento Autosupervisado de Reverberación: Uso innovador del modelo de reverberación para supervisar el entrenamiento de redes neuronales profundas, en lugar de la supervisión basada en métricas tradicionales
Estrategia de Entrenamiento Consciente del Tiempo de Reverberación: Combinación de modelos acústicos y aprendizaje profundo, utilizando parámetros como RT60 para guiar el entrenamiento
Mejora de Rendimiento Más Consistente: Superación de métodos basados en supervisión de métricas en múltiples indicadores objetivos
Implementación de Código Abierto: Publicación de código, modelos preentrenados y ejemplos para promover la reproducibilidad de la investigación
Entrada: Señal de habla reverberada Y
Salida: Señal de habla limpia estimada Ŝ
Restricción: Durante el entrenamiento se utiliza únicamente la señal reverberada, sin necesidad de datos pareados limpios/reverberados
Estrategia Autosupervisada de Reverberación: A diferencia de la supervisión basada en métricas tradicionales, utiliza directamente el modelo físico de reverberación para la supervisión
Convolución Tiempo-Frecuencia Entre Bandas: Implementa operación de convolución diferenciable en el dominio tiempo-frecuencia, facilitando la retropropagación de gradientes
Función de Pérdida de Coincidencia de Reverberación:
L = ∑|Ŷ_{f,t} - Y_{f,t}|² + λ|log((1+γ|Ŷ_{f,t}|)/(1+γ|Y_{f,t}|))|²
Ventaja de Consistencia: El método propuesto supera la línea base SRMR en tres indicadores: SISDR, ESTOI y WB-PESQ
Limitaciones de la Línea Base: El método base MetricGAN-U muestra el mejor rendimiento en la métrica SRMR, pero su rendimiento disminuye en otros indicadores, incluso por debajo de la señal reverberada original
Robustez de Estimación: La versión ciegamente supervisada muestra rendimiento casi idéntico a la versión débilmente supervisada, demostrando robustez ante errores de estimación de RT60
Adaptabilidad del Modelo: BiLSTM muestra una disminución de rendimiento menor al pasar de supervisión fuerte a débil, posiblemente porque solo procesa máscaras de amplitud, siendo insensible a perturbaciones de fase
El artículo cita trabajos importantes en campos relacionados, incluyendo:
Fundamentos teóricos clásicos del modelo de reverberación de Polack
Métodos tradicionales de desreverberación como WPE
Métodos no supervisados recientes como MetricGAN-U
Modelos avanzados de mejora de habla como FullSubNet
Algoritmos relacionados de estimación ciega de parámetros de reverberación
Este artículo propone un marco innovador de desreverberación no supervisada del habla que, mediante la combinación inteligente de modelado acústico y aprendizaje profundo, encuentra un buen equilibrio entre practicidad y rendimiento. Aunque aún existe una brecha con métodos fuertemente supervisados, proporciona una solución valiosa para resolver el problema de adquisición de datos en aplicaciones prácticas.