Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic
Minderung der Rauschverschiebung für denoisende generative Modelle durch Rauschbewusstseins-Leitfaden
Bestehende denoisende generative Modelle beruhen auf der Lösung diskretisierter rückwärts gerichteter zeitlicher SDEs oder ODEs. Dieses Paper identifiziert ein lange übersehenes, aber weit verbreitetes Problem in solchen Modellen: die Nichtübereinstimmung zwischen vordefinierten Rauschpegeln und den tatsächlichen Rauschpegeln, die von Zwischenzuständen während des Samplingprozesses kodiert werden. Die Autoren bezeichnen diese Nichtübereinstimmung als Rauschverschiebung (noise shift). Durch empirische Analysen zeigen die Autoren, dass die Rauschverschiebung in modernen Diffusionsmodellen weit verbreitet ist und systematische Abweichungen aufweist, was zu Out-of-Distribution-Generalisierung und ungenauen Denoisingaktualisierungen führt und somit suboptimale Generierungsergebnisse erzeugt. Um dieses Problem zu lösen, schlagen die Autoren Noise Awareness Guidance (NAG) vor, eine einfache und effektive Korrekturmethode, die Samplingtrajektor explizit dazu anleitet, die Konsistenz mit dem vordefinierten Rauschplan zu bewahren.
Denoisende generative Modelle wie Diffusionsmodelle und Flussmodelle haben bemerkenswerte Erfolge bei visuellen Generierungsaufgaben wie Bildsynthese und Videogenerierung erzielt. Das Kernprinzip dieser Modelle besteht darin, Zielproben durch einen iterativen Prozess schrittweise aus reinem Rauschen wiederherzustellen. Während des iterativen Samplingprozesses sammelt das Modell jedoch unweigerlich Fehler aus mehreren Quellen an, einschließlich:
Unvollkommener Netzwerkapproximation
Diskretisierungsfehlern bei der numerischen Integration
Die Autoren entdecken, dass eine Schlüsselmanifestation dieser kumulativen Fehler darin besteht, dass der in Zwischenzuständen inhärent kodierte Rauschpegel vom vordefinierten Plan abweichen kann. Dieses als "Rauschverschiebung" bezeichnete Phänomen wurde lange von der Gemeinschaft übersehen, ist aber tatsächlich weit verbreitet und wurzelt in der kollektiven Wirkung verschiedener Fehlerquellen.
Die Rauschverschiebung führt zu einer grundlegenden Nichtübereinstimmung des Denoisingnetzwerks zwischen Training und Inferenz, die sich konkret manifestiert als:
Out-of-Distribution-Generalisierungsproblem: Das trainierte Modell wird auf verschobene Zwischenzustände angewendet
Suboptimale Denoisingoperationen: Verwendung unggenauer vordefinierter Koeffizienten zur Berechnung des nächsten Zustands
Identifikation des Rauschverschiebungsproblems: Erste systematische Identifikation und Analyse des weit verbreiteten, aber lange übersehenen Rauschverschiebungsproblems in denoisenden generativen Modellen
Vorschlag der NAG-Methode: Entwicklung der Noise Awareness Guidance (NAG)-Methode zur Minderung des Rauschverschiebungsproblems
Entwicklung einer klassifiziererfreien Variante: Vorschlag einer klassifiziererfreien Variante von NAG durch Rausch-Bedingung-Dropout zum gemeinsamen Training von rausch-bedingten und rausch-unbedingten Modellen
Umfassende experimentelle Validierung: Validierung der Effektivität und Universalität von NAG bei ImageNet-Generierung und überwachten Feinabstimmungsaufgaben
Für Rauschpegel t∈[0,T] ist die kontinuierliche zeitliche zufällige Interpolation definiert als:
xt=αtx0+σtϵ
wobei α0=σT=1, αT=σ0=0, αt monoton fallend und σt monoton steigend.
Der kumulative Fehler e kann als zusätzliche Gaußsche Störung auf xt betrachtet werden: x^t=xt+e, wobei e∼N(0,σe2I).
Diese Störung erhöht die effektive Varianz von σt2 auf σt2+σe2, wodurch der gestörte Zustand so wirkt, als wäre er bei einem verschobenen Rauschpegel t′=t+δ abgetastet worden:
σt+δ2=σt2+σe2
Aussage 1: Wenn die Fehler-Varianz σe2 klein ist, ist die Näherung erster Ordnung der Verschiebung δ:
δ≈σ˙tσt2+σe2−σt
Unter Verwendung von pt(t∣x)∝pt(x∣t)/pt(x) wird eine Score-Mischung verwendet, um den Gradienten des impliziten Rauschprädiktors zu approximieren:
swnag(x∣t)=(wnag+1)s(x∣t)−wnags(x)
Folgt der Trainingsstrategie von CFG: Während des Trainings wird die Rausch-Bedingung t mit fester Wahrscheinlichkeit zufällig verworfen, sodass das Modell Gewichte zwischen bedingten und unbedingten Zielen teilt.
Klassifizierer-Leitfaden: Verwendung externer Klassifizierer für bedingte Generierung
Klassifiziererfreier Leitfaden (CFG): Realisierung von Leitfaden durch Mischung bedingter und unbedingter Modelle
Domain-Leitfaden (DoG): Speziell für Feinabstimmungsszenarien entwickelte Leitfadenmethode
Das NAG in diesem Paper ist die erste Methode, die explizit den Rauschpegel selbst als Leitungssignal verwendet und direkt die Ausrichtung mit der erwarteten Rausch-Bedingung verbessert.
Rauschverschiebung ist weit verbreitet: Training-Inferenz-Nichtübereinstimmung wird in modernen denoisenden generativen Modellen weit verbreitet gefunden
NAG mindert das Problem effektiv: Durch direkte Adressierung der Rauschpegel-Nichtübereinstimmung wird die Generierungsqualität erheblich verbessert
Starke Methodenuniversalität: Zeigt konsistente Verbesserungen über verschiedene Architekturen, Aufgaben und Baseline-Methoden hinweg
Abhängigkeit vom Rausch-Schätzer: Empirische Analysen hängen von der Genauigkeit des externen Rausch-Schätzers ab
Vereinfachte theoretische Analyse: Theoretische Analysen basieren auf vereinfachten Annahmen und erfassen möglicherweise nicht vollständig die tatsächliche Komplexität
Rechnerischer Aufwand: Erfordert zusätzliches Training eines unbedingten Zweigs
Die Autoren hoffen, dass diese Arbeit Forscher auf das weit verbreitete Training-Inferenz-Nichtübereinstimmungsproblem in denoisenden Generierungsmodellen aufmerksam macht und folgende Forschungsrichtungen fördert:
Theoretische oder empirische Analysen des Rauschverschiebungsproblems
Konstruktion von Generierungsmodellen, die robust gegen Verschiebungen in der Inferenzphase sind
Erkundung der Grenzen hochqualitativer Generierung
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper, das ein wichtiges, aber übersehenes Problem in denoisenden generativen Modellen identifiziert, eine einfache und effektive Lösung vorschlägt und die Effektivität und Universalität der Methode durch umfassende Experimente validiert. Diese Arbeit hat wichtige akademische und praktische Bedeutung für das Diffusionsmodell-Feld.