Speech Enhancement and Dereverberation with Diffusion-based Generative Models
Richter, Welker, Lemercier et al.
In this work, we build upon our previous publication and use diffusion-based generative models for speech enhancement. We present a detailed overview of the diffusion process that is based on a stochastic differential equation and delve into an extensive theoretical examination of its implications. Opposed to usual conditional generation tasks, we do not start the reverse process from pure Gaussian noise but from a mixture of noisy speech and Gaussian noise. This matches our forward process which moves from clean speech to noisy speech by including a drift term. We show that this procedure enables using only 30 diffusion steps to generate high-quality clean speech estimates. By adapting the network architecture, we are able to significantly improve the speech enhancement performance, indicating that the network, rather than the formalism, was the main limitation of our original approach. In an extensive cross-dataset evaluation, we show that the improved method can compete with recent discriminative models and achieves better generalization when evaluating on a different corpus than used for training. We complement the results with an instrumental evaluation using real-world noisy recordings and a listening experiment, in which our proposed method is rated best. Examining different sampler configurations for solving the reverse process allows us to balance the performance and computational speed of the proposed method. Moreover, we show that the proposed method is also suitable for dereverberation and thus not limited to additive background noise removal. Code and audio examples are available online, see https://github.com/sp-uhh/sgmse.
academic
Sprachverbesserung und Dereverberation mit diffusionsbasierten generativen Modellen
Dieses Paper basiert auf früheren Arbeiten der Autoren und nutzt diffusionsbasierte generative Modelle zur Sprachverbesserung. Das Paper beschreibt detailliert den Diffusionsprozess basierend auf stochastischen Differentialgleichungen (SDEs) und führt eine tiefgehende theoretische Analyse durch. Im Gegensatz zu herkömmlichen bedingten Generierungsaufgaben beginnt dieses Paper den Rückwärtsprozess nicht mit reinem Gaußschen Rauschen, sondern mit einer Mischung aus verrauschter Sprache und Gaußschen Rauschen. Dies entspricht dem Vorwärtsprozess mit Driftterm, der von sauberer Sprache zu verrauschter Sprache führt. Die Forschung zeigt, dass die Methode hochwertige Schätzungen sauberer Sprache mit nur 30 Diffusionsschritten generieren kann. Durch verbesserte Netzwerkarchitektur wurde die Sprachverbesserungsleistung erheblich gesteigert, was darauf hindeutet, dass das Netzwerk und nicht die formalisierte Methode der Hauptlimitierungsfaktor des ursprünglichen Ansatzes war.
Sprachverbesserung zielt darauf ab, saubere Sprachsignale aus Audioaufnahmen wiederherzustellen, die durch akustisches Rauschen oder Nachhall beeinträchtigt sind. Dies ist ein klassisches Signalverarbeitungsproblem mit wichtigen Anwendungen in Telefonkommunikation, Hörhilfen und Spracherkennung.
Dieses Paper zielt darauf ab, ein reines generatives Diffusionsmodell zu entwerfen, das durch das Erlernen der Priorverteilung sauberer Sprache hochwertige Sprachverbesserung und Dereverberation im komplexen STFT-Bereich ermöglicht.
Innovativer SDE-Diffusionsprozess: Vorschlag einer stochastischen Differentialgleichung mit Driftterm, die den Vorwärtsprozess von sauberer zu verrauschter Sprache führt
Verbesserte Netzwerkarchitektur: Einsatz der NCSN++-Architektur anstelle des ursprünglichen komplexen U-Net mit erheblicher Leistungssteigerung
Einheitlicher Rahmen: Ein Framework kann sowohl Sprachverbesserungs- als auch Dereverberation-Aufgaben verarbeiten
Umfassende Bewertung: Einschließlich datensatzübergreifender Bewertung, Tests mit echten Daten und subjektiven Hörtests
Effizienzoptimierung: Ausbalancierung von Leistung und Rechengeschwindigkeit durch verschiedene Sampler-Konfigurationen
Theoretische Analyse: Detaillierte theoretische Herleitung und Analyse des Diffusionsprozesses
Das Paper arbeitet im komplexen STFT-Bereich mit Amplitudenkomprimierungstransformation:
c~=β∣c∣αei∠(c)
wobei α∈(0,1] der Kompressionexponent und β∈R+ der Skalierungsfaktor ist.
Unter nicht übereinstimmenden Bedingungen (VB-DMD-Training, WSJ0-CHiME3-Test) übertrifft SGMSE+ andere Methoden bei allen Metriken und zeigt überlegene Verallgemeinerungsfähigkeit.
Im Vergleich zum ursprünglichen SGMSE zeigt SGMSE+ eine Verbesserung von 0,75 bei POLQA und 0,68 bei PESQ, was die Wichtigkeit der Netzwerkarchitektur beweist.
MUSHRA-Experimentergebnisse zeigen, dass SGMSE+ die höchste Bewertung erhält, besonders unter nicht übereinstimmenden Bedingungen mit ausgezeichneter Robustheit.
Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
Song et al. (2021): Score-based generative modeling through stochastic differential equations
Lu et al. (2022): Conditional diffusion probabilistic model for speech enhancement
Vincent (2011): A connection between score matching and denoising autoencoders
Anderson (1982): Reverse-time diffusion equation models
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper, das sich in theoretischer Innovation, Methodendesign und experimenteller Validierung auszeichnet. Das Paper wendet erfolgreich Diffusionsmodelle auf Sprachverbesserungsaufgaben an und erreicht durch geschicktes SDE-Design und Netzwerkarchitektur-Verbesserungen Leistungen, die mit diskriminativen Modellen vergleichbar sind, während es gleichzeitig überlegene Verallgemeinerungsfähigkeit zeigt. Trotz Recheneffizienz- und Artefaktproblemen machen sein theoretischer Beitrag und praktischer Wert es zu einer wichtigen Arbeit in diesem Bereich.