2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.

Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.

academic

Minderung der Rauschverschiebung für denoisende generative Modelle durch Rauschbewusstseins-Leitfaden

Grundinformationen

Paper-ID: 2510.12497
Titel: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Autoren: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2510.12497

Zusammenfassung

Bestehende denoisende generative Modelle beruhen auf der Lösung diskretisierter rückwärts gerichteter zeitlicher SDEs oder ODEs. Dieses Paper identifiziert ein lange übersehenes, aber weit verbreitetes Problem in solchen Modellen: die Nichtübereinstimmung zwischen vordefinierten Rauschpegeln und den tatsächlichen Rauschpegeln, die von Zwischenzuständen während des Samplingprozesses kodiert werden. Die Autoren bezeichnen diese Nichtübereinstimmung als Rauschverschiebung (noise shift). Durch empirische Analysen zeigen die Autoren, dass die Rauschverschiebung in modernen Diffusionsmodellen weit verbreitet ist und systematische Abweichungen aufweist, was zu Out-of-Distribution-Generalisierung und ungenauen Denoisingaktualisierungen führt und somit suboptimale Generierungsergebnisse erzeugt. Um dieses Problem zu lösen, schlagen die Autoren Noise Awareness Guidance (NAG) vor, eine einfache und effektive Korrekturmethode, die Samplingtrajektor explizit dazu anleitet, die Konsistenz mit dem vordefinierten Rauschplan zu bewahren.

Forschungshintergrund und Motivation

Problembeschreibung

Denoisende generative Modelle wie Diffusionsmodelle und Flussmodelle haben bemerkenswerte Erfolge bei visuellen Generierungsaufgaben wie Bildsynthese und Videogenerierung erzielt. Das Kernprinzip dieser Modelle besteht darin, Zielproben durch einen iterativen Prozess schrittweise aus reinem Rauschen wiederherzustellen. Während des iterativen Samplingprozesses sammelt das Modell jedoch unweigerlich Fehler aus mehreren Quellen an, einschließlich:

Unvollkommener Netzwerkapproximation
Diskretisierungsfehlern bei der numerischen Integration
Anderen stochastischen Faktoren

Kernproblem

Die Autoren entdecken, dass eine Schlüsselmanifestation dieser kumulativen Fehler darin besteht, dass der in Zwischenzuständen inhärent kodierte Rauschpegel vom vordefinierten Plan abweichen kann. Dieses als "Rauschverschiebung" bezeichnete Phänomen wurde lange von der Gemeinschaft übersehen, ist aber tatsächlich weit verbreitet und wurzelt in der kollektiven Wirkung verschiedener Fehlerquellen.

Problemrelevanz

Die Rauschverschiebung führt zu einer grundlegenden Nichtübereinstimmung des Denoisingnetzwerks zwischen Training und Inferenz, die sich konkret manifestiert als:

Out-of-Distribution-Generalisierungsproblem: Das trainierte Modell wird auf verschobene Zwischenzustände angewendet
Suboptimale Denoisingoperationen: Verwendung unggenauer vordefinierter Koeffizienten zur Berechnung des nächsten Zustands

Kernbeiträge

Identifikation des Rauschverschiebungsproblems: Erste systematische Identifikation und Analyse des weit verbreiteten, aber lange übersehenen Rauschverschiebungsproblems in denoisenden generativen Modellen
Vorschlag der NAG-Methode: Entwicklung der Noise Awareness Guidance (NAG)-Methode zur Minderung des Rauschverschiebungsproblems
Entwicklung einer klassifiziererfreien Variante: Vorschlag einer klassifiziererfreien Variante von NAG durch Rausch-Bedingung-Dropout zum gemeinsamen Training von rausch-bedingten und rausch-unbedingten Modellen
Umfassende experimentelle Validierung: Validierung der Effektivität und Universalität von NAG bei ImageNet-Generierung und überwachten Feinabstimmungsaufgaben

Methodendetails

Problembeschreibung

Vorwärtsprozess

Für Rauschpegel $t \in [0,T]$ ist die kontinuierliche zeitliche zufällige Interpolation definiert als: $x_t = \alpha_t x_0 + \sigma_t \epsilon$ wobei $\alpha_0 = \sigma_T = 1$ , $\alpha_T = \sigma_0 = 0$ , $\alpha_t$ monoton fallend und $\sigma_t$ monoton steigend.

Mathematische Beschreibung der Rauschverschiebung

Der kumulative Fehler $e$ kann als zusätzliche Gaußsche Störung auf $x_t$ betrachtet werden: $\hat{x}_t = x_t + e$ , wobei $e \sim \mathcal{N}(0, \sigma_e^2 I)$ .

Diese Störung erhöht die effektive Varianz von $\sigma_t^2$ auf $\sigma_t^2 + \sigma_e^2$ , wodurch der gestörte Zustand so wirkt, als wäre er bei einem verschobenen Rauschpegel $t' = t + \delta$ abgetastet worden: $\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2$

Aussage 1: Wenn die Fehler-Varianz $\sigma_e^2$ klein ist, ist die Näherung erster Ordnung der Verschiebung $\delta$ : $\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}$

Noise Awareness Guidance (NAG)

Klassifizierer-basierte NAG

Der rausch-bedingte Score kann geschrieben werden als: $s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)$

Durch einen externen posterioren Schätzer $g_\phi$ wird ein Leitungssignal $\nabla \log g_\phi(t|x)$ bereitgestellt.

Klassifiziererfreie NAG

Unter Verwendung von $p_t(t|x) \propto p_t(x|t)/p_t(x)$ wird eine Score-Mischung verwendet, um den Gradienten des impliziten Rauschprädiktors zu approximieren: $s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)$

wobei $w_{nag}$ der Leitungsparameter von NAG ist.

Implementierungsstrategie

Folgt der Trainingsstrategie von CFG: Während des Trainings wird die Rausch-Bedingung $t$ mit fester Wahrscheinlichkeit zufällig verworfen, sodass das Modell Gewichte zwischen bedingten und unbedingten Zielen teilt.

Technische Innovationspunkte

Direkte Adressierung der Rauschverschiebung: NAG adressiert direkt das Rauschpegel-Nichtübereinstimmungsproblem, anstatt es indirekt zu mindern
Orthogonal zu CFG: Die von NAG eingeführte Rauschpegel-Bedingungsachse ist orthogonal zur Bedingungsachse von CFG und bietet komplementäre Kontrolle
Einfach und effektiv: Benötigt keinen externen Klassifizierer und kann direkt in bestehende Modelle integriert werden

Experimentelle Einrichtung

Datensätze

ImageNet 256×256: Verwendung des vortrainierten Stable Diffusion VAE zur Gewinnung von 32×32×4 latenten Vektoren
Überwachte Feinabstimmungsdatensätze: Food101, SUN397, DF20-Mini, Caltech101, CUB-200-2011, ArtBench-10, Stanford Cars

Modellarchitektur

DiT (Diffusion Transformers): Varianten S/2, B/2, L/2, XL/2
SiT (Scalable Interpolant Transformers): Varianten mit gleicher Konfiguration

Bewertungsmetriken

FID (Fréchet Inception Distance): Primäre Bewertungsmetrik
Precision & Recall: Für die Bewertung konvergierter Ergebnisse

Implementierungsdetails

Samplingschritte: DiT verwendet 250-Schritte-DDPM-Sampling, SiT verwendet 250-Schritte-SDE-Euler-Maruyama-Sampling
Leitungsgewichte: $w_{nag} = 3.0$ (ohne CFG), $w_{nag} = 2.0$ (mit CFG)
Rausch-Dropout: 10% Wahrscheinlichkeit zum Verwerfen der Rausch-Bedingung während des Trainings

Experimentelle Ergebnisse

Hauptergebnisse

ImageNet-Generierung

Tabelle 1: Vergleichsergebnisse konvergierter Modelle

Modell	Trainingsschritte	Generierung ohne CFG	Generierung mit CFG
DiT-XL/2	1400	FID: 9.62	FID: 2.27
+NAG	10+(1400*)	FID: 2.59	FID: 2.14
SiT-XL/2	1400	FID: 8.61	FID: 2.06
+NAG	10+(1400*)	FID: 2.26	FID: 1.72

Wichtigste Erkenntnisse:

NAG allein kann Generierungsqualität erreichen, die CFG-Leitfaden nahekommt
In Kombination mit CFG bietet NAG zusätzliche Verbesserungen
Nur 10 zusätzliche Trainingsschritte (ca. 0,7% der Vortrainingskosten) sind erforderlich, um NAG zu aktivieren

Ergebnisse der überwachten Feinabstimmung

Tabelle 2: FID-Vergleich bei Feinabstimmungsaufgaben

Methode	Food	SUN	Caltech	CUB	Stanford Car	DF-20M	ArtBench	Durchschnitt FID
Feinabstimmung (ohne CFG)	16.04	21.41	31.34	9.81	11.29	17.92	22.76	18.65
+NAG	11.18	14.95	24.32	5.68	5.92	14.79	19.22	13.72
Feinabstimmung (mit CFG)	10.93	14.13	23.84	5.37	6.32	15.29	19.94	13.69
+NAG	5.78	8.81	21.87	3.52	3.91	12.55	15.69	10.31

Effekt der Rauschverschiebungsminderung

Empirische Analysen durch einen externen Rausch-Schätzer $g_\phi$ zeigen:

Rauschverschiebung ist in modernen Diffusionsmodellen weit verbreitet
Manifestiert sich als systematische Verschiebung zu größeren Rauschpegeln
NAG reduziert diese Verschiebung effektiv, besonders im Bereich mit Signal-Rausch-Verhältnis größer als 1

Ablationsstudien

Empfindlichkeit des Leitungsgewichts: $w_{nag}$ zeigt stabile Leistung im Bereich 2.0-4.0
Einfluss der Samplingschritte: NAG ist bei verschiedenen Samplingschritten effektiv
Architektur-Universalität: Zeigt konsistente Verbesserungen sowohl bei DiT als auch bei SiT-Architekturen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Rauschverschiebung ist weit verbreitet: Training-Inferenz-Nichtübereinstimmung wird in modernen denoisenden generativen Modellen weit verbreitet gefunden
NAG mindert das Problem effektiv: Durch direkte Adressierung der Rauschpegel-Nichtübereinstimmung wird die Generierungsqualität erheblich verbessert
Starke Methodenuniversalität: Zeigt konsistente Verbesserungen über verschiedene Architekturen, Aufgaben und Baseline-Methoden hinweg

Einschränkungen

Abhängigkeit vom Rausch-Schätzer: Empirische Analysen hängen von der Genauigkeit des externen Rausch-Schätzers ab
Vereinfachte theoretische Analyse: Theoretische Analysen basieren auf vereinfachten Annahmen und erfassen möglicherweise nicht vollständig die tatsächliche Komplexität
Rechnerischer Aufwand: Erfordert zusätzliches Training eines unbedingten Zweigs

Zukünftige Richtungen

Die Autoren hoffen, dass diese Arbeit Forscher auf das weit verbreitete Training-Inferenz-Nichtübereinstimmungsproblem in denoisenden Generierungsmodellen aufmerksam macht und folgende Forschungsrichtungen fördert:

Theoretische oder empirische Analysen des Rauschverschiebungsproblems
Konstruktion von Generierungsmodellen, die robust gegen Verschiebungen in der Inferenzphase sind
Erkundung der Grenzen hochqualitativer Generierung
Schnellere Samplingmethoden

Tiefgreifende Bewertung

Stärken

Innovative Problembeschreibung: Erste systematische Identifikation und Analyse des weit verbreiteten, aber übersehenen Rauschverschiebungsproblems
Einfache und effektive Methode: NAG ist einfach gestaltet, leicht in bestehende Modelle integrierbar und zeigt signifikante Effekte
Umfassende Experimente: Umfasst mehrere Architekturen, Datensätze und Aufgaben und validiert die Universalität der Methode
Theoretische Unterstützung: Bietet mathematische Analyse und Näherungsformeln für Rauschverschiebung
Hoher praktischer Wert: Kann direkt angewendet werden, um die Leistung bestehender Modelle mit minimalem zusätzlichem Training erheblich zu verbessern

Mängel

Einschränkungen der theoretischen Analyse: Basiert auf vereinfachten Annahmen und erfasst möglicherweise nicht vollständig komplexe reale Situationen
Rausch-Schätzer-Problem: Empirische Analysen hängen von externen Schätzern ab und können zusätzliche Fehler einführen
Rechnerische Kosten: Erfordert Training eines zusätzlichen unbedingten Zweigs, was Trainings- und Inferenzkosten erhöht
Anwendungsbereich: Hauptsächlich bei visuellen Generierungsaufgaben validiert, Anwendbarkeit auf andere Modalitäten unbekannt

Einfluss

Akademischer Beitrag: Offenbart wichtige Probleme in denoisenden generativen Modellen und bietet neue Forschungsrichtungen für das Feld
Praktischer Wert: Kann direkt angewendet werden, um die Leistung bestehender Modelle zu verbessern, mit starker Praktikabilität
Methoden-Universalität: Orthogonal und komplementär zu bestehenden Leitfadenmethoden mit breiter Anwendbarkeit

Anwendungsszenarien

Großflächige Bildgenerierungsaufgaben
Überwachte Feinabstimmung vortrainierter Modelle
Anwendungsszenarien, die hochwertige Generierung erfordern
Umgebungen mit relativ ausreichenden Rechenressourcen

Referenzen

Das Paper zitiert wichtige Arbeiten in verwandten Bereichen wie Diffusionsmodelle, Flussmodelle und Leitfadentechniken, einschließlich:

Ho et al. (2020): Originalpaper zu DDPM
Peebles & Xie (2023): DiT-Architektur
Ma et al. (2024): SiT-Architektur
Ho & Salimans (2021): Klassifiziererfreier Leitfaden
Dhariwal & Nichol (2021): Klassifizierer-Leitfaden

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper, das ein wichtiges, aber übersehenes Problem in denoisenden generativen Modellen identifiziert, eine einfache und effektive Lösung vorschlägt und die Effektivität und Universalität der Methode durch umfassende Experimente validiert. Diese Arbeit hat wichtige akademische und praktische Bedeutung für das Diffusionsmodell-Feld.