2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
academic

Miglioramento del Parlato e Dereverberation con Modelli Generativi Basati su Diffusione

Informazioni Fondamentali

  • ID Articolo: 2208.05830
  • Titolo: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
  • Autori: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
  • Classificazione: eess.AS (Elaborazione Audio e Parlato), cs.LG (Apprendimento Automatico), cs.SD (Suono)
  • Data di Pubblicazione: Agosto 2022 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2208.05830
  • Link Codice: https://github.com/sp-uhh/sgmse

Riassunto

Questo articolo, basato su lavori precedenti degli autori, utilizza modelli generativi basati su diffusione per il miglioramento del parlato. L'articolo presenta in dettaglio il processo di diffusione basato su equazioni differenziali stocastiche e conduce un'analisi teorica approfondita. A differenza dei compiti di generazione condizionata convenzionali, l'articolo non inizia il processo inverso da rumore gaussiano puro, bensì da una miscela di parlato rumoroso e rumore gaussiano. Ciò corrisponde al processo in avanti che contiene un termine di drift, che trasforma il parlato pulito in parlato rumoroso. La ricerca dimostra che il metodo può generare stime di parlato pulito di alta qualità con soli 30 passi di diffusione. Attraverso il miglioramento dell'architettura di rete, le prestazioni di miglioramento del parlato sono state significativamente potenziate, indicando che la rete, piuttosto che il metodo formalizzato, è il fattore limitante principale dell'approccio originale.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il miglioramento del parlato mira a recuperare il segnale vocale pulito da registrazioni audio affette da rumore acustico o riverbero. Si tratta di un problema classico di elaborazione dei segnali con importanti applicazioni nelle comunicazioni telefoniche, nei dispositivi acustici, nel riconoscimento vocale e in altri campi.

Limitazioni dei Metodi Esistenti

  1. Limitazioni dei Modelli Discriminativi:
    • Difficoltà nel coprire tutte le possibili condizioni acustiche nei dati di addestramento
    • Possibile produzione di distorsioni vocali innaturali
    • Capacità di generalizzazione limitata
  2. Problemi dei Modelli Generativi VAE:
    • Limitazioni della riduzione dimensionale dello strato latente
    • Sensibilità dell'encoder agli input rumorosi
    • Dipendenza da modelli di rumore lineari
  3. Insufficienze dei Modelli di Diffusione Esistenti:
    • CDiffuSE richiede una stima esplicita del rumore ambientale
    • Conservazione inadeguata delle informazioni ad alta frequenza

Motivazione della Ricerca

Questo articolo mira a progettare un modello di diffusione puramente generativo che, attraverso l'apprendimento della distribuzione a priori del parlato pulito, realizzi miglioramento del parlato e dereverberation di alta qualità nel dominio STFT complesso.

Contributi Principali

  1. Processo di Diffusione SDE Innovativo: Propone un'equazione differenziale stocastica con termine di drift che trasforma il processo in avanti da parlato pulito a parlato rumoroso
  2. Architettura di Rete Migliorata: Adotta l'architettura NCSN++ al posto della U-Net complessa originale, migliorando significativamente le prestazioni
  3. Framework Unificato: Lo stesso framework può gestire sia il miglioramento del parlato che il dereverberation
  4. Valutazione Completa: Include valutazione cross-dataset, test su dati reali e esperimenti di ascolto soggettivo
  5. Ottimizzazione dell'Efficienza: Bilancia prestazioni e velocità computazionale attraverso diverse configurazioni di campionatori
  6. Analisi Teorica: Fornisce derivazioni teoriche dettagliate e analisi del processo di diffusione

Spiegazione Dettagliata del Metodo

Definizione del Compito

  • Input: Segnale vocale rumoroso/riverberato yy
  • Output: Segnale vocale pulito x0x_0
  • Vincoli: Mantenimento della naturalezza e dell'intelligibilità del parlato

Rappresentazione dei Dati

L'articolo opera nel dominio STFT complesso, utilizzando una trasformazione di compressione dell'ampiezza: c~=βcαei(c)\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)} dove α(0,1]\alpha \in (0,1] è l'esponente di compressione e βR+\beta \in \mathbb{R}^+ è il fattore di scala.

Progettazione dell'Equazione Differenziale Stocastica

Processo in Avanti

Definisce l'SDE lineare: dxt=f(xt,y)dt+g(t)dwdx_t = f(x_t, y)dt + g(t)dw

dove:

  • Coefficiente di drift: f(xt,y)=γ(yxt)f(x_t, y) = \gamma(y - x_t)
  • Coefficiente di diffusione: g(t)=σmin(σmaxσmin)t2log(σmaxσmin)g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}

Processo Inverso

L'SDE inverso corrispondente è: dxt=[f(xt,y)g(t)2sθ(xt,y,t)]dt+g(t)dwˉdx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}

dove sθ(xt,y,t)s_\theta(x_t, y, t) è la funzione di score da apprendere.

Obiettivo di Addestramento

Basato sul denoising score matching, l'obiettivo di addestramento è: argminθEt,(x0,y),z,xt(x0,y)[sθ(xt,y,t)+zσ(t)22]\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]

Architettura di Rete

Adotta l'architettura NCSN++, con caratteristiche principali:

  1. Struttura U-Net Multi-Risoluzione
  2. Percorsi di Crescita Progressiva
  3. Meccanismo di Attenzione Globale
  4. Embedding Temporale: Utilizza embedding di Fourier per codificare le informazioni temporali
  5. Blocchi Residuali: Blocchi di rete residuale basati su BigGAN

Configurazione Sperimentale

Dataset

  1. WSJ0-CHiME3: Utilizza parlato pulito WSJ0 e rumore CHiME3, intervallo SNR 0-20dB
  2. VB-DMD (VoiceBank-DEMAND): Dataset benchmark standard per il miglioramento del parlato
  3. WSJ0-REVERB: Dati riverberati simulati utilizzando pyroomacoustics, intervallo T60 0.4-1.0 secondi

Metriche di Valutazione

  • Metriche Full-Reference: POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
  • Metriche No-Reference: DNSMOS, SIG, BAK, OVRL, WVMOS

Metodi di Confronto

  • Modelli Generativi: STCN, DVAE, CDiffuSE, SGMSE (versione originale)
  • Modelli Discriminativi: MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

Dettagli di Implementazione

  • Parametri STFT: lunghezza finestra 510, lunghezza salto 128, finestra Hann
  • Parametri SDE: σmin=0.05\sigma_{min}=0.05, σmax=0.5\sigma_{max}=0.5, γ=1.5\gamma=1.5
  • Addestramento: 4×Quadro RTX 6000, 160 epoch, tasso di apprendimento 10410^{-4}
  • Campionamento: 30 passi di processo inverso, campionatore predittore-correttore

Risultati Sperimentali

Risultati Principali

Prestazioni di Miglioramento del Parlato (WSJ0-CHiME3)

MetodoSet di AddestramentoPOLQAPESQSI-SDR
SGMSE+WSJ0-C33.732.9618.3
Conv-TasNetWSJ0-C33.652.9919.9
MetricGAN+WSJ0-C33.523.0310.5
CDiffuSEWSJ0-C33.082.279.2

Capacità di Generalizzazione Cross-Dataset

In condizioni non corrispondenti (addestramento VB-DMD, test WSJ0-CHiME3), SGMSE+ supera gli altri metodi in tutte le metriche, dimostrando eccellente capacità di generalizzazione.

Prestazioni di Dereverberation (WSJ0-REVERB)

MetodoPOLQAPESQSI-SDR
SGMSE+3.242.661.6
Conv-TasNet2.411.841.6
GaGNet2.621.98-0.6

Esperimenti di Ablazione

Ottimizzazione della Configurazione del Campionatore

  • Campionatore Predittore-Correttore: 1 passo di correzione raggiunge il miglior equilibrio di prestazioni
  • Scelta dei Passi: 30 passi raggiungono la saturazione delle prestazioni
  • Efficienza Computazionale: RTF di 1.77 (1.77 volte l'elaborazione in tempo reale)

Effetti del Miglioramento dell'Architettura

Rispetto all'SGMSE originale, SGMSE+ mostra un miglioramento di 0.75 in POLQA e 0.68 in PESQ, provando l'importanza dell'architettura di rete.

Esperimenti di Ascolto Soggettivo

I risultati dell'esperimento MUSHRA mostrano che SGMSE+ ottiene il punteggio più alto, in particolare dimostrando eccellente robustezza in condizioni non corrispondenti.

Valutazione su Dati Reali

Su dati di rumore reale della DNS Challenge 2020, SGMSE+ mostra le migliori prestazioni in tutte le metriche no-reference.

Lavori Correlati

Approcci con Modelli Discriminativi

  • Mascheramento Tempo-Frequenza: Apprendimento di maschere binarie ideali o maschere di rapporto
  • Mappatura Spettrale Complessa: Stima diretta dei coefficienti STFT complessi
  • Metodi nel Dominio del Tempo: Elaborazione end-to-end della forma d'onda

Approcci con Modelli Generativi

  • Basati su VAE: Apprendimento della distribuzione a priori del parlato, ma limitati dalla riduzione dimensionale dello spazio latente
  • Metodi GAN: Stima della densità implicita, ma addestramento instabile
  • Modelli di Diffusione: Recentemente emersi, divisi in due categorie: rigenerazione e modellazione diretta

Applicazioni dei Modelli di Diffusione nel Parlato

  • Rigenerazione del Parlato: Metodi come CDiffuSE
  • Modellazione Diretta: Metodi della serie SGMSE in questo articolo

Conclusioni e Discussione

Conclusioni Principali

  1. L'architettura di rete migliorata è il fattore chiave per il miglioramento delle prestazioni
  2. I modelli generativi superano i modelli discriminativi nella generalizzazione cross-dataset
  3. Lo stesso framework può gestire efficacemente molteplici compiti di recupero vocale
  4. Un processo di diffusione di 30 passi può raggiungere la generazione di parlato di alta qualità

Limitazioni

  1. Complessità Computazionale: Carico computazionale maggiore rispetto ai modelli discriminativi
  2. Artefatti: Possibili artefatti di "voicing" a SNR molto bassi
  3. Modellazione della Fase: Effetto limitato dell'aumento di fase nella modellazione complessa
  4. Sensibilità ai Parametri: Richiede un'attenta regolazione dei parametri SDE

Direzioni Future

  1. Incorporazione di rilevamento dell'attività vocale e condizionamento di informazioni fonemiche
  2. Esplorazione di strategie di campionamento più efficienti
  3. Ricerca sull'aumento di fase con lunghezze di frame più brevi
  4. Estensione ad altri compiti di recupero vocale

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico: Fornisce derivazioni teoriche complete e analisi dell'SDE
  2. Innovazione Metodologica: Progettazione ingegnosa del termine di drift per l'adattamento del compito
  3. Esperimenti Completi: Include valutazione cross-dataset, dati reali e valutazione soggettiva
  4. Valore Pratico: Codice open-source, facilita la riproduzione e l'applicazione
  5. Scrittura Chiara: Derivazioni teoriche dettagliate, progettazione sperimentale ragionevole

Insufficienze

  1. Efficienza Computazionale: RTF di 1.77, l'elaborazione in tempo reale necessita di miglioramenti
  2. Problema degli Artefatti: Gli artefatti di "voicing" a basso SNR necessitano di soluzione
  3. Regolazione dei Parametri: I parametri SDE richiedono ottimizzazione per dataset specifici
  4. Analisi Teorica: L'analisi dell'impatto della mancata corrispondenza tra processi in avanti e inversi non è sufficientemente approfondita

Impatto

  1. Valore Accademico: Fornisce un importante riferimento per l'applicazione dei modelli di diffusione nell'elaborazione vocale
  2. Valore Pratico: Raggiunge prestazioni competitive su molteplici dataset benchmark
  3. Riproducibilità: Fornisce codice completo e campioni audio
  4. Ispirazione: Fornisce un framework generico per altri compiti di recupero vocale

Scenari Applicabili

  1. Miglioramento del Parlato: Comunicazioni telefoniche, dispositivi acustici
  2. Dereverberation: Post-elaborazione di registrazioni vocali in ambienti chiusi
  3. Recupero Vocale: Restauro di registrazioni storiche
  4. Pre-elaborazione: Elaborazione front-end per sistemi di riconoscimento vocale

Bibliografia

L'articolo cita numerosi lavori correlati, principalmente includenti:

  • Song et al. (2021): Score-based generative modeling through stochastic differential equations
  • Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
  • Vincent (2011): A connection between score matching and denoising autoencoders
  • Anderson (1982): Reverse-time diffusion equation models

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che dimostra eccellenza nell'innovazione teorica, progettazione metodologica e verifica sperimentale. L'articolo applica con successo i modelli di diffusione al compito di miglioramento del parlato, realizzando prestazioni comparabili ai modelli discriminativi attraverso un'ingegnosa progettazione dell'SDE e il miglioramento dell'architettura di rete, mentre dimostra una capacità di generalizzazione superiore. Nonostante le problematiche di efficienza computazionale e artefatti, il suo contributo teorico e valore pratico lo rendono un lavoro importante in questo campo.