2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
academic

Sprachverbesserung und Dereverberation mit diffusionsbasierten generativen Modellen

Grundinformationen

  • Paper-ID: 2208.05830
  • Titel: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
  • Autoren: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
  • Klassifizierung: eess.AS (Audio- und Sprachverarbeitung), cs.LG (Maschinelles Lernen), cs.SD (Sound)
  • Veröffentlichungsdatum: August 2022 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2208.05830
  • Code-Link: https://github.com/sp-uhh/sgmse

Zusammenfassung

Dieses Paper basiert auf früheren Arbeiten der Autoren und nutzt diffusionsbasierte generative Modelle zur Sprachverbesserung. Das Paper beschreibt detailliert den Diffusionsprozess basierend auf stochastischen Differentialgleichungen (SDEs) und führt eine tiefgehende theoretische Analyse durch. Im Gegensatz zu herkömmlichen bedingten Generierungsaufgaben beginnt dieses Paper den Rückwärtsprozess nicht mit reinem Gaußschen Rauschen, sondern mit einer Mischung aus verrauschter Sprache und Gaußschen Rauschen. Dies entspricht dem Vorwärtsprozess mit Driftterm, der von sauberer Sprache zu verrauschter Sprache führt. Die Forschung zeigt, dass die Methode hochwertige Schätzungen sauberer Sprache mit nur 30 Diffusionsschritten generieren kann. Durch verbesserte Netzwerkarchitektur wurde die Sprachverbesserungsleistung erheblich gesteigert, was darauf hindeutet, dass das Netzwerk und nicht die formalisierte Methode der Hauptlimitierungsfaktor des ursprünglichen Ansatzes war.

Forschungshintergrund und Motivation

Problemdefinition

Sprachverbesserung zielt darauf ab, saubere Sprachsignale aus Audioaufnahmen wiederherzustellen, die durch akustisches Rauschen oder Nachhall beeinträchtigt sind. Dies ist ein klassisches Signalverarbeitungsproblem mit wichtigen Anwendungen in Telefonkommunikation, Hörhilfen und Spracherkennung.

Limitierungen bestehender Methoden

  1. Limitierungen diskriminativer Modelle:
    • Schwierigkeiten bei der Abdeckung aller möglichen akustischen Bedingungen in Trainingsdaten
    • Mögliche unnatürliche Sprachverzerrungen
    • Begrenzte Verallgemeinerungsfähigkeit
  2. Probleme mit VAE-Generierungsmodellen:
    • Dimensionalitätsreduktion in latenten Schichten
    • Empfindlichkeit des Encoders gegenüber verrauschten Eingaben
    • Abhängigkeit von linearen Rauschmodellen
  3. Unzulänglichkeiten bestehender Diffusionsmodelle:
    • CDiffuSE erfordert explizite Umgebungsrauschschätzung
    • Schlechte Erhaltung hochfrequenter Informationen

Forschungsmotivation

Dieses Paper zielt darauf ab, ein reines generatives Diffusionsmodell zu entwerfen, das durch das Erlernen der Priorverteilung sauberer Sprache hochwertige Sprachverbesserung und Dereverberation im komplexen STFT-Bereich ermöglicht.

Kernbeiträge

  1. Innovativer SDE-Diffusionsprozess: Vorschlag einer stochastischen Differentialgleichung mit Driftterm, die den Vorwärtsprozess von sauberer zu verrauschter Sprache führt
  2. Verbesserte Netzwerkarchitektur: Einsatz der NCSN++-Architektur anstelle des ursprünglichen komplexen U-Net mit erheblicher Leistungssteigerung
  3. Einheitlicher Rahmen: Ein Framework kann sowohl Sprachverbesserungs- als auch Dereverberation-Aufgaben verarbeiten
  4. Umfassende Bewertung: Einschließlich datensatzübergreifender Bewertung, Tests mit echten Daten und subjektiven Hörtests
  5. Effizienzoptimierung: Ausbalancierung von Leistung und Rechengeschwindigkeit durch verschiedene Sampler-Konfigurationen
  6. Theoretische Analyse: Detaillierte theoretische Herleitung und Analyse des Diffusionsprozesses

Methodische Details

Aufgabendefinition

  • Eingabe: Verrauschtes/verhallendes Sprachsignal yy
  • Ausgabe: Sauberes Sprachsignal x0x_0
  • Einschränkung: Beibehaltung der Natürlichkeit und Verständlichkeit der Sprache

Datendarstellung

Das Paper arbeitet im komplexen STFT-Bereich mit Amplitudenkomprimierungstransformation: c~=βcαei(c)\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)} wobei α(0,1]\alpha \in (0,1] der Kompressionexponent und βR+\beta \in \mathbb{R}^+ der Skalierungsfaktor ist.

Stochastische Differentialgleichung Design

Vorwärtsprozess

Definiert als lineare SDE: dxt=f(xt,y)dt+g(t)dwdx_t = f(x_t, y)dt + g(t)dw

wobei:

  • Driftkoeffizient: f(xt,y)=γ(yxt)f(x_t, y) = \gamma(y - x_t)
  • Diffusionskoeffizient: g(t)=σmin(σmaxσmin)t2log(σmaxσmin)g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}

Rückwärtsprozess

Die entsprechende rückwärtige SDE ist: dxt=[f(xt,y)g(t)2sθ(xt,y,t)]dt+g(t)dwˉdx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}

wobei sθ(xt,y,t)s_\theta(x_t, y, t) die zu erlernende Scorefunktion ist.

Trainingsziel

Basierend auf Denoising-Score-Matching ist das Trainingsziel: argminθEt,(x0,y),z,xt(x0,y)[sθ(xt,y,t)+zσ(t)22]\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]

Netzwerkarchitektur

Einsatz der NCSN++-Architektur mit Hauptmerkmalen:

  1. Multi-Auflösungs-U-Net-Struktur
  2. Progressiver Wachstumspfad
  3. Globale Aufmerksamkeitsmechanismus
  4. Zeiteinbettung: Fourier-Einbettung zur Kodierung von Zeitinformationen
  5. Residualblöcke: Basierend auf BigGAN-Residualnetzwerkblöcken

Experimentelle Einrichtung

Datensätze

  1. WSJ0-CHiME3: Verwendung von WSJ0-Reinsprache und CHiME3-Rauschen, SNR-Bereich 0-20 dB
  2. VB-DMD (VoiceBank-DEMAND): Standard-Sprachverbesserungs-Benchmark-Datensatz
  3. WSJ0-REVERB: Mit pyroomacoustics simulierte Nachhall-Daten, T60-Bereich 0,4-1,0 Sekunden

Bewertungsmetriken

  • Vollständige Referenzmetriken: POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
  • Referenzlose Metriken: DNSMOS, SIG, BAK, OVRL, WVMOS

Vergleichsmethoden

  • Generative Modelle: STCN, DVAE, CDiffuSE, SGMSE (Original)
  • Diskriminative Modelle: MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

Implementierungsdetails

  • STFT-Parameter: Fensterlänge 510, Hopgröße 128, Hann-Fenster
  • SDE-Parameter: σmin=0,05\sigma_{min}=0,05, σmax=0,5\sigma_{max}=0,5, γ=1,5\gamma=1,5
  • Training: 4×Quadro RTX 6000, 160 Epochen, Lernrate 10410^{-4}
  • Sampling: 30-Schritte-Rückwärtsprozess, Prädiktor-Korrektor-Sampler

Experimentelle Ergebnisse

Hauptergebnisse

Sprachverbesserungsleistung (WSJ0-CHiME3)

MethodeTrainingssatzPOLQAPESQSI-SDR
SGMSE+WSJ0-C33,732,9618,3
Conv-TasNetWSJ0-C33,652,9919,9
MetricGAN+WSJ0-C33,523,0310,5
CDiffuSEWSJ0-C33,082,279,2

Datensatzübergreifende Verallgemeinerungsfähigkeit

Unter nicht übereinstimmenden Bedingungen (VB-DMD-Training, WSJ0-CHiME3-Test) übertrifft SGMSE+ andere Methoden bei allen Metriken und zeigt überlegene Verallgemeinerungsfähigkeit.

Dereverberation-Leistung (WSJ0-REVERB)

MethodePOLQAPESQSI-SDR
SGMSE+3,242,661,6
Conv-TasNet2,411,841,6
GaGNet2,621,98-0,6

Ablationsstudien

Sampler-Konfigurationsoptimierung

  • Prädiktor-Korrektor-Sampler: 1 Korrekturschritt erreicht optimale Leistungsbalance
  • Schrittauswahl: 30 Schritte erreichen Leistungssättigung
  • Recheneffizienz: RTF von 1,77 (1,77-fache Echtzeit-Verarbeitung)

Auswirkungen der Architekturverbesserung

Im Vergleich zum ursprünglichen SGMSE zeigt SGMSE+ eine Verbesserung von 0,75 bei POLQA und 0,68 bei PESQ, was die Wichtigkeit der Netzwerkarchitektur beweist.

Subjektive Hörtests

MUSHRA-Experimentergebnisse zeigen, dass SGMSE+ die höchste Bewertung erhält, besonders unter nicht übereinstimmenden Bedingungen mit ausgezeichneter Robustheit.

Bewertung mit echten Daten

Bei echten Rausch-Daten aus der DNS Challenge 2020 zeigt SGMSE+ die beste Leistung bei allen referenzlosen Metriken.

Verwandte Arbeiten

Diskriminative Modellmethoden

  • Zeitfrequenz-Masking: Erlernen idealer binärer oder Verhältnismasken
  • Komplexe Spektrumabbildung: Direkte Schätzung komplexer STFT-Koeffizienten
  • Zeitbereichsmethoden: End-to-End-Wellenformverarbeitung

Generative Modellmethoden

  • VAE-Basis: Erlernen von Sprachpriorverteilungen, aber begrenzt durch Dimensionalitätsreduktion in latenten Räumen
  • GAN-Methoden: Implizite Dichteestimation, aber instabiles Training
  • Diffusionsmodelle: Kürzlich entstanden, unterteilt in Regenerierungs- und direkte Modellierungsansätze

Anwendung von Diffusionsmodellen in der Sprache

  • Sprachregeneration: CDiffuSE und ähnliche Methoden
  • Direkte Modellierung: SGMSE-Serienmethoden in diesem Paper

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Verbesserte Netzwerkarchitektur ist der Schlüsselfaktor für Leistungssteigerung
  2. Generative Modelle übertreffen diskriminative Modelle bei datensatzübergreifender Verallgemeinerung
  3. Ein einziger Framework kann mehrere Sprachwiederherstellungsaufgaben effektiv verarbeiten
  4. 30-Schritte-Diffusionsprozess kann hochwertige Sprachgenerierung erreichen

Limitierungen

  1. Rechenkomplexität: Höherer Rechenaufwand im Vergleich zu diskriminativen Modellen
  2. Artefakte: Mögliche "Vokalisierungs"-Artefakte bei extrem niedrigem SNR
  3. Phasenmodellierung: Begrenzte Phasenverbesserungseffekte bei komplexer Modellierung
  4. Parameterempfindlichkeit: Sorgfältige Abstimmung von SDE-Parametern erforderlich

Zukünftige Richtungen

  1. Integration von Sprachaktivitätserkennung und Phoneminformation-Konditionierung
  2. Erforschung effizienterer Sampling-Strategien
  3. Untersuchung der Phasenverbesserung bei kürzeren Rahmenlängen
  4. Erweiterung auf andere Sprachwiederherstellungsaufgaben

Tiefgehende Bewertung

Stärken

  1. Theoretischer Beitrag: Vollständige SDE-Theorieherleitung und -analyse
  2. Methodische Innovation: Geschicktes Drift-Term-Design für Aufgabenanpassung
  3. Umfassende Experimente: Datensatzübergreifend, echte Daten und subjektive Bewertungen
  4. Praktischer Wert: Open-Source-Code für einfache Reproduzierbarkeit und Anwendung
  5. Klare Darstellung: Detaillierte theoretische Herleitungen und rationales Experimentdesign

Schwächen

  1. Recheneffizienz: RTF von 1,77, Echtzeitverarbeitung bedarf Verbesserung
  2. Artefaktproblem: "Vokalisierungs"-Artefakte bei niedrigem SNR müssen gelöst werden
  3. Parameterabstimmung: SDE-Parameter erfordern datensatzspezifische Optimierung
  4. Theoretische Analyse: Unzureichende Analyse der Auswirkungen von Vor- und Rückwärts-Prozess-Nichtübereinstimmung

Einfluss

  1. Akademischer Wert: Wichtige Referenz für Diffusionsmodelle in der Sprachverarbeitung
  2. Praktischer Wert: Wettbewerbsfähige Leistung auf mehreren Benchmark-Datensätzen
  3. Reproduzierbarkeit: Vollständiger Code und Audio-Beispiele bereitgestellt
  4. Inspirationswert: Universeller Framework für andere Sprachwiederherstellungsaufgaben

Anwendungsszenarien

  1. Sprachverbesserung: Telefonkommunikation, Hörhilfen
  2. Dereverberation: Nachbearbeitung von Innenraumsprachaufnahmen
  3. Sprachwiederherstellung: Restauration historischer Aufnahmen
  4. Vorverarbeitung: Front-End-Verarbeitung von Spracherkennungssystemen

Literaturverzeichnis

Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Song et al. (2021): Score-based generative modeling through stochastic differential equations
  • Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
  • Vincent (2011): A connection between score matching and denoising autoencoders
  • Anderson (1982): Reverse-time diffusion equation models

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper, das sich in theoretischer Innovation, Methodendesign und experimenteller Validierung auszeichnet. Das Paper wendet erfolgreich Diffusionsmodelle auf Sprachverbesserungsaufgaben an und erreicht durch geschicktes SDE-Design und Netzwerkarchitektur-Verbesserungen Leistungen, die mit diskriminativen Modellen vergleichbar sind, während es gleichzeitig überlegene Verallgemeinerungsfähigkeit zeigt. Trotz Recheneffizienz- und Artefaktproblemen machen sein theoretischer Beitrag und praktischer Wert es zu einer wichtigen Arbeit in diesem Bereich.