Speech Enhancement and Dereverberation with Diffusion-based Generative Models
Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
academic
Miglioramento del Parlato e Dereverberation con Modelli Generativi Basati su Diffusione
Questo articolo, basato su lavori precedenti degli autori, utilizza modelli generativi basati su diffusione per il miglioramento del parlato. L'articolo presenta in dettaglio il processo di diffusione basato su equazioni differenziali stocastiche e conduce un'analisi teorica approfondita. A differenza dei compiti di generazione condizionata convenzionali, l'articolo non inizia il processo inverso da rumore gaussiano puro, bensì da una miscela di parlato rumoroso e rumore gaussiano. Ciò corrisponde al processo in avanti che contiene un termine di drift, che trasforma il parlato pulito in parlato rumoroso. La ricerca dimostra che il metodo può generare stime di parlato pulito di alta qualità con soli 30 passi di diffusione. Attraverso il miglioramento dell'architettura di rete, le prestazioni di miglioramento del parlato sono state significativamente potenziate, indicando che la rete, piuttosto che il metodo formalizzato, è il fattore limitante principale dell'approccio originale.
Il miglioramento del parlato mira a recuperare il segnale vocale pulito da registrazioni audio affette da rumore acustico o riverbero. Si tratta di un problema classico di elaborazione dei segnali con importanti applicazioni nelle comunicazioni telefoniche, nei dispositivi acustici, nel riconoscimento vocale e in altri campi.
Questo articolo mira a progettare un modello di diffusione puramente generativo che, attraverso l'apprendimento della distribuzione a priori del parlato pulito, realizzi miglioramento del parlato e dereverberation di alta qualità nel dominio STFT complesso.
Processo di Diffusione SDE Innovativo: Propone un'equazione differenziale stocastica con termine di drift che trasforma il processo in avanti da parlato pulito a parlato rumoroso
Architettura di Rete Migliorata: Adotta l'architettura NCSN++ al posto della U-Net complessa originale, migliorando significativamente le prestazioni
Framework Unificato: Lo stesso framework può gestire sia il miglioramento del parlato che il dereverberation
Valutazione Completa: Include valutazione cross-dataset, test su dati reali e esperimenti di ascolto soggettivo
Ottimizzazione dell'Efficienza: Bilancia prestazioni e velocità computazionale attraverso diverse configurazioni di campionatori
Analisi Teorica: Fornisce derivazioni teoriche dettagliate e analisi del processo di diffusione
L'articolo opera nel dominio STFT complesso, utilizzando una trasformazione di compressione dell'ampiezza:
c~=β∣c∣αei∠(c)
dove α∈(0,1] è l'esponente di compressione e β∈R+ è il fattore di scala.
In condizioni non corrispondenti (addestramento VB-DMD, test WSJ0-CHiME3), SGMSE+ supera gli altri metodi in tutte le metriche, dimostrando eccellente capacità di generalizzazione.
I risultati dell'esperimento MUSHRA mostrano che SGMSE+ ottiene il punteggio più alto, in particolare dimostrando eccellente robustezza in condizioni non corrispondenti.
L'articolo cita numerosi lavori correlati, principalmente includenti:
Song et al. (2021): Score-based generative modeling through stochastic differential equations
Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
Vincent (2011): A connection between score matching and denoising autoencoders
Anderson (1982): Reverse-time diffusion equation models
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che dimostra eccellenza nell'innovazione teorica, progettazione metodologica e verifica sperimentale. L'articolo applica con successo i modelli di diffusione al compito di miglioramento del parlato, realizzando prestazioni comparabili ai modelli discriminativi attraverso un'ingegnosa progettazione dell'SDE e il miglioramento dell'architettura di rete, mentre dimostra una capacità di generalizzazione superiore. Nonostante le problematiche di efficienza computazionale e artefatti, il suo contributo teorico e valore pratico lo rendono un lavoro importante in questo campo.