2025-11-14T00:52:10.685423

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

Richter, Welker, Lemercier et al.

In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.

academic

Sprachverbesserung und Dereverberation mit diffusionsbasierten generativen Modellen

Grundinformationen

Paper-ID: 2208.05830
Titel: Speech Enhancement and Dereverberation with Diffusion-based Generative Models
Autoren: Julius Richter, Simon Welker, Jean-Marie Lemercier, Bunlong Lay, Timo Gerkmann
Klassifizierung: eess.AS (Audio- und Sprachverarbeitung), cs.LG (Maschinelles Lernen), cs.SD (Sound)
Veröffentlichungsdatum: August 2022 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2208.05830
Code-Link: https://github.com/sp-uhh/sgmse

Zusammenfassung

Dieses Paper basiert auf früheren Arbeiten der Autoren und nutzt diffusionsbasierte generative Modelle zur Sprachverbesserung. Das Paper beschreibt detailliert den Diffusionsprozess basierend auf stochastischen Differentialgleichungen (SDEs) und führt eine tiefgehende theoretische Analyse durch. Im Gegensatz zu herkömmlichen bedingten Generierungsaufgaben beginnt dieses Paper den Rückwärtsprozess nicht mit reinem Gaußschen Rauschen, sondern mit einer Mischung aus verrauschter Sprache und Gaußschen Rauschen. Dies entspricht dem Vorwärtsprozess mit Driftterm, der von sauberer Sprache zu verrauschter Sprache führt. Die Forschung zeigt, dass die Methode hochwertige Schätzungen sauberer Sprache mit nur 30 Diffusionsschritten generieren kann. Durch verbesserte Netzwerkarchitektur wurde die Sprachverbesserungsleistung erheblich gesteigert, was darauf hindeutet, dass das Netzwerk und nicht die formalisierte Methode der Hauptlimitierungsfaktor des ursprünglichen Ansatzes war.

Forschungshintergrund und Motivation

Problemdefinition

Sprachverbesserung zielt darauf ab, saubere Sprachsignale aus Audioaufnahmen wiederherzustellen, die durch akustisches Rauschen oder Nachhall beeinträchtigt sind. Dies ist ein klassisches Signalverarbeitungsproblem mit wichtigen Anwendungen in Telefonkommunikation, Hörhilfen und Spracherkennung.

Limitierungen bestehender Methoden

Limitierungen diskriminativer Modelle:
- Schwierigkeiten bei der Abdeckung aller möglichen akustischen Bedingungen in Trainingsdaten
- Mögliche unnatürliche Sprachverzerrungen
- Begrenzte Verallgemeinerungsfähigkeit
Probleme mit VAE-Generierungsmodellen:
- Dimensionalitätsreduktion in latenten Schichten
- Empfindlichkeit des Encoders gegenüber verrauschten Eingaben
- Abhängigkeit von linearen Rauschmodellen
Unzulänglichkeiten bestehender Diffusionsmodelle:
- CDiffuSE erfordert explizite Umgebungsrauschschätzung
- Schlechte Erhaltung hochfrequenter Informationen

Forschungsmotivation

Dieses Paper zielt darauf ab, ein reines generatives Diffusionsmodell zu entwerfen, das durch das Erlernen der Priorverteilung sauberer Sprache hochwertige Sprachverbesserung und Dereverberation im komplexen STFT-Bereich ermöglicht.

Kernbeiträge

Innovativer SDE-Diffusionsprozess: Vorschlag einer stochastischen Differentialgleichung mit Driftterm, die den Vorwärtsprozess von sauberer zu verrauschter Sprache führt
Verbesserte Netzwerkarchitektur: Einsatz der NCSN++-Architektur anstelle des ursprünglichen komplexen U-Net mit erheblicher Leistungssteigerung
Einheitlicher Rahmen: Ein Framework kann sowohl Sprachverbesserungs- als auch Dereverberation-Aufgaben verarbeiten
Umfassende Bewertung: Einschließlich datensatzübergreifender Bewertung, Tests mit echten Daten und subjektiven Hörtests
Effizienzoptimierung: Ausbalancierung von Leistung und Rechengeschwindigkeit durch verschiedene Sampler-Konfigurationen
Theoretische Analyse: Detaillierte theoretische Herleitung und Analyse des Diffusionsprozesses

Methodische Details

Aufgabendefinition

Eingabe: Verrauschtes/verhallendes Sprachsignal $y$
Ausgabe: Sauberes Sprachsignal $x_0$
Einschränkung: Beibehaltung der Natürlichkeit und Verständlichkeit der Sprache

Datendarstellung

Das Paper arbeitet im komplexen STFT-Bereich mit Amplitudenkomprimierungstransformation: $\tilde{c} = \beta|c|^{\alpha}e^{i\angle(c)}$ wobei $\alpha \in (0,1]$ der Kompressionexponent und $\beta \in \mathbb{R}^+$ der Skalierungsfaktor ist.

Stochastische Differentialgleichung Design

Vorwärtsprozess

Definiert als lineare SDE: $dx_t = f(x_t, y)dt + g(t)dw$

wobei:

Driftkoeffizient: $f(x_t, y) = \gamma(y - x_t)$
Diffusionskoeffizient: $g(t) = \sigma_{min}\left(\frac{\sigma_{max}}{\sigma_{min}}\right)^t\sqrt{2\log\left(\frac{\sigma_{max}}{\sigma_{min}}\right)}$

Rückwärtsprozess

Die entsprechende rückwärtige SDE ist: $dx_t = [f(x_t, y) - g(t)^2s_\theta(x_t, y, t)]dt + g(t)d\bar{w}$

wobei $s_\theta(x_t, y, t)$ die zu erlernende Scorefunktion ist.

Trainingsziel

Basierend auf Denoising-Score-Matching ist das Trainingsziel: $\arg\min_\theta \mathbb{E}_{t,(x_0,y),z,x_t|(x_0,y)}\left[\left\|s_\theta(x_t, y, t) + \frac{z}{\sigma(t)}\right\|_2^2\right]$

Netzwerkarchitektur

Einsatz der NCSN++-Architektur mit Hauptmerkmalen:

Multi-Auflösungs-U-Net-Struktur
Progressiver Wachstumspfad
Globale Aufmerksamkeitsmechanismus
Zeiteinbettung: Fourier-Einbettung zur Kodierung von Zeitinformationen
Residualblöcke: Basierend auf BigGAN-Residualnetzwerkblöcken

Experimentelle Einrichtung

Datensätze

WSJ0-CHiME3: Verwendung von WSJ0-Reinsprache und CHiME3-Rauschen, SNR-Bereich 0-20 dB
VB-DMD (VoiceBank-DEMAND): Standard-Sprachverbesserungs-Benchmark-Datensatz
WSJ0-REVERB: Mit pyroomacoustics simulierte Nachhall-Daten, T60-Bereich 0,4-1,0 Sekunden

Bewertungsmetriken

Vollständige Referenzmetriken: POLQA, PESQ, ESTOI, SI-SDR, SI-SIR, SI-SAR
Referenzlose Metriken: DNSMOS, SIG, BAK, OVRL, WVMOS

Vergleichsmethoden

Generative Modelle: STCN, DVAE, CDiffuSE, SGMSE (Original)
Diskriminative Modelle: MetricGAN+, Conv-TasNet, GaGNet, TCN+SA+S

Implementierungsdetails

STFT-Parameter: Fensterlänge 510, Hopgröße 128, Hann-Fenster
SDE-Parameter: $\sigma_{min}=0,05$ , $\sigma_{max}=0,5$ , $\gamma=1,5$
Training: 4×Quadro RTX 6000, 160 Epochen, Lernrate $10^{-4}$
Sampling: 30-Schritte-Rückwärtsprozess, Prädiktor-Korrektor-Sampler

Experimentelle Ergebnisse

Hauptergebnisse

Sprachverbesserungsleistung (WSJ0-CHiME3)

Methode	Trainingssatz	POLQA	PESQ	SI-SDR
SGMSE+	WSJ0-C3	3,73	2,96	18,3
Conv-TasNet	WSJ0-C3	3,65	2,99	19,9
MetricGAN+	WSJ0-C3	3,52	3,03	10,5
CDiffuSE	WSJ0-C3	3,08	2,27	9,2

Datensatzübergreifende Verallgemeinerungsfähigkeit

Unter nicht übereinstimmenden Bedingungen (VB-DMD-Training, WSJ0-CHiME3-Test) übertrifft SGMSE+ andere Methoden bei allen Metriken und zeigt überlegene Verallgemeinerungsfähigkeit.

Dereverberation-Leistung (WSJ0-REVERB)

Methode	POLQA	PESQ	SI-SDR
SGMSE+	3,24	2,66	1,6
Conv-TasNet	2,41	1,84	1,6
GaGNet	2,62	1,98	-0,6

Ablationsstudien

Sampler-Konfigurationsoptimierung

Prädiktor-Korrektor-Sampler: 1 Korrekturschritt erreicht optimale Leistungsbalance
Schrittauswahl: 30 Schritte erreichen Leistungssättigung
Recheneffizienz: RTF von 1,77 (1,77-fache Echtzeit-Verarbeitung)

Auswirkungen der Architekturverbesserung

Im Vergleich zum ursprünglichen SGMSE zeigt SGMSE+ eine Verbesserung von 0,75 bei POLQA und 0,68 bei PESQ, was die Wichtigkeit der Netzwerkarchitektur beweist.

Subjektive Hörtests

MUSHRA-Experimentergebnisse zeigen, dass SGMSE+ die höchste Bewertung erhält, besonders unter nicht übereinstimmenden Bedingungen mit ausgezeichneter Robustheit.

Bewertung mit echten Daten

Bei echten Rausch-Daten aus der DNS Challenge 2020 zeigt SGMSE+ die beste Leistung bei allen referenzlosen Metriken.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Verbesserte Netzwerkarchitektur ist der Schlüsselfaktor für Leistungssteigerung
Generative Modelle übertreffen diskriminative Modelle bei datensatzübergreifender Verallgemeinerung
Ein einziger Framework kann mehrere Sprachwiederherstellungsaufgaben effektiv verarbeiten
30-Schritte-Diffusionsprozess kann hochwertige Sprachgenerierung erreichen

Limitierungen

Rechenkomplexität: Höherer Rechenaufwand im Vergleich zu diskriminativen Modellen
Artefakte: Mögliche "Vokalisierungs"-Artefakte bei extrem niedrigem SNR
Phasenmodellierung: Begrenzte Phasenverbesserungseffekte bei komplexer Modellierung
Parameterempfindlichkeit: Sorgfältige Abstimmung von SDE-Parametern erforderlich

Zukünftige Richtungen

Integration von Sprachaktivitätserkennung und Phoneminformation-Konditionierung
Erforschung effizienterer Sampling-Strategien
Untersuchung der Phasenverbesserung bei kürzeren Rahmenlängen
Erweiterung auf andere Sprachwiederherstellungsaufgaben

Tiefgehende Bewertung

Stärken

Theoretischer Beitrag: Vollständige SDE-Theorieherleitung und -analyse
Methodische Innovation: Geschicktes Drift-Term-Design für Aufgabenanpassung
Umfassende Experimente: Datensatzübergreifend, echte Daten und subjektive Bewertungen
Praktischer Wert: Open-Source-Code für einfache Reproduzierbarkeit und Anwendung
Klare Darstellung: Detaillierte theoretische Herleitungen und rationales Experimentdesign

Schwächen

Recheneffizienz: RTF von 1,77, Echtzeitverarbeitung bedarf Verbesserung
Artefaktproblem: "Vokalisierungs"-Artefakte bei niedrigem SNR müssen gelöst werden
Parameterabstimmung: SDE-Parameter erfordern datensatzspezifische Optimierung
Theoretische Analyse: Unzureichende Analyse der Auswirkungen von Vor- und Rückwärts-Prozess-Nichtübereinstimmung

Einfluss

Akademischer Wert: Wichtige Referenz für Diffusionsmodelle in der Sprachverarbeitung
Praktischer Wert: Wettbewerbsfähige Leistung auf mehreren Benchmark-Datensätzen
Reproduzierbarkeit: Vollständiger Code und Audio-Beispiele bereitgestellt
Inspirationswert: Universeller Framework für andere Sprachwiederherstellungsaufgaben

Anwendungsszenarien

Sprachverbesserung: Telefonkommunikation, Hörhilfen
Dereverberation: Nachbearbeitung von Innenraumsprachaufnahmen
Sprachwiederherstellung: Restauration historischer Aufnahmen
Vorverarbeitung: Front-End-Verarbeitung von Spracherkennungssystemen

Literaturverzeichnis

Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

Song et al. (2021): Score-based generative modeling through stochastic differential equations
Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
Vincent (2011): A connection between score matching and denoising autoencoders
Anderson (1982): Reverse-time diffusion equation models

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper, das sich in theoretischer Innovation, Methodendesign und experimenteller Validierung auszeichnet. Das Paper wendet erfolgreich Diffusionsmodelle auf Sprachverbesserungsaufgaben an und erreicht durch geschicktes SDE-Design und Netzwerkarchitektur-Verbesserungen Leistungen, die mit diskriminativen Modellen vergleichbar sind, während es gleichzeitig überlegene Verallgemeinerungsfähigkeit zeigt. Trotz Recheneffizienz- und Artefaktproblemen machen sein theoretischer Beitrag und praktischer Wert es zu einer wichtigen Arbeit in diesem Bereich.