2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic

Minderung der Rauschverschiebung für denoisende generative Modelle durch Rauschbewusstseins-Leitfaden

Grundinformationen

  • Paper-ID: 2510.12497
  • Titel: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
  • Autoren: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.12497

Zusammenfassung

Bestehende denoisende generative Modelle beruhen auf der Lösung diskretisierter rückwärts gerichteter zeitlicher SDEs oder ODEs. Dieses Paper identifiziert ein lange übersehenes, aber weit verbreitetes Problem in solchen Modellen: die Nichtübereinstimmung zwischen vordefinierten Rauschpegeln und den tatsächlichen Rauschpegeln, die von Zwischenzuständen während des Samplingprozesses kodiert werden. Die Autoren bezeichnen diese Nichtübereinstimmung als Rauschverschiebung (noise shift). Durch empirische Analysen zeigen die Autoren, dass die Rauschverschiebung in modernen Diffusionsmodellen weit verbreitet ist und systematische Abweichungen aufweist, was zu Out-of-Distribution-Generalisierung und ungenauen Denoisingaktualisierungen führt und somit suboptimale Generierungsergebnisse erzeugt. Um dieses Problem zu lösen, schlagen die Autoren Noise Awareness Guidance (NAG) vor, eine einfache und effektive Korrekturmethode, die Samplingtrajektor explizit dazu anleitet, die Konsistenz mit dem vordefinierten Rauschplan zu bewahren.

Forschungshintergrund und Motivation

Problembeschreibung

Denoisende generative Modelle wie Diffusionsmodelle und Flussmodelle haben bemerkenswerte Erfolge bei visuellen Generierungsaufgaben wie Bildsynthese und Videogenerierung erzielt. Das Kernprinzip dieser Modelle besteht darin, Zielproben durch einen iterativen Prozess schrittweise aus reinem Rauschen wiederherzustellen. Während des iterativen Samplingprozesses sammelt das Modell jedoch unweigerlich Fehler aus mehreren Quellen an, einschließlich:

  • Unvollkommener Netzwerkapproximation
  • Diskretisierungsfehlern bei der numerischen Integration
  • Anderen stochastischen Faktoren

Kernproblem

Die Autoren entdecken, dass eine Schlüsselmanifestation dieser kumulativen Fehler darin besteht, dass der in Zwischenzuständen inhärent kodierte Rauschpegel vom vordefinierten Plan abweichen kann. Dieses als "Rauschverschiebung" bezeichnete Phänomen wurde lange von der Gemeinschaft übersehen, ist aber tatsächlich weit verbreitet und wurzelt in der kollektiven Wirkung verschiedener Fehlerquellen.

Problemrelevanz

Die Rauschverschiebung führt zu einer grundlegenden Nichtübereinstimmung des Denoisingnetzwerks zwischen Training und Inferenz, die sich konkret manifestiert als:

  1. Out-of-Distribution-Generalisierungsproblem: Das trainierte Modell wird auf verschobene Zwischenzustände angewendet
  2. Suboptimale Denoisingoperationen: Verwendung unggenauer vordefinierter Koeffizienten zur Berechnung des nächsten Zustands

Kernbeiträge

  1. Identifikation des Rauschverschiebungsproblems: Erste systematische Identifikation und Analyse des weit verbreiteten, aber lange übersehenen Rauschverschiebungsproblems in denoisenden generativen Modellen
  2. Vorschlag der NAG-Methode: Entwicklung der Noise Awareness Guidance (NAG)-Methode zur Minderung des Rauschverschiebungsproblems
  3. Entwicklung einer klassifiziererfreien Variante: Vorschlag einer klassifiziererfreien Variante von NAG durch Rausch-Bedingung-Dropout zum gemeinsamen Training von rausch-bedingten und rausch-unbedingten Modellen
  4. Umfassende experimentelle Validierung: Validierung der Effektivität und Universalität von NAG bei ImageNet-Generierung und überwachten Feinabstimmungsaufgaben

Methodendetails

Problembeschreibung

Vorwärtsprozess

Für Rauschpegel t[0,T]t \in [0,T] ist die kontinuierliche zeitliche zufällige Interpolation definiert als: xt=αtx0+σtϵx_t = \alpha_t x_0 + \sigma_t \epsilon wobei α0=σT=1\alpha_0 = \sigma_T = 1, αT=σ0=0\alpha_T = \sigma_0 = 0, αt\alpha_t monoton fallend und σt\sigma_t monoton steigend.

Mathematische Beschreibung der Rauschverschiebung

Der kumulative Fehler ee kann als zusätzliche Gaußsche Störung auf xtx_t betrachtet werden: x^t=xt+e\hat{x}_t = x_t + e, wobei eN(0,σe2I)e \sim \mathcal{N}(0, \sigma_e^2 I).

Diese Störung erhöht die effektive Varianz von σt2\sigma_t^2 auf σt2+σe2\sigma_t^2 + \sigma_e^2, wodurch der gestörte Zustand so wirkt, als wäre er bei einem verschobenen Rauschpegel t=t+δt' = t + \delta abgetastet worden: σt+δ2=σt2+σe2\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2

Aussage 1: Wenn die Fehler-Varianz σe2\sigma_e^2 klein ist, ist die Näherung erster Ordnung der Verschiebung δ\delta: δσt2+σe2σtσ˙t\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}

Noise Awareness Guidance (NAG)

Klassifizierer-basierte NAG

Der rausch-bedingte Score kann geschrieben werden als: s(xt)=xlogpt(xt)=xlogpt(x)+xlogpt(tx)s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)

Durch einen externen posterioren Schätzer gϕg_\phi wird ein Leitungssignal loggϕ(tx)\nabla \log g_\phi(t|x) bereitgestellt.

Klassifiziererfreie NAG

Unter Verwendung von pt(tx)pt(xt)/pt(x)p_t(t|x) \propto p_t(x|t)/p_t(x) wird eine Score-Mischung verwendet, um den Gradienten des impliziten Rauschprädiktors zu approximieren: swnag(xt)=(wnag+1)s(xt)wnags(x)s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)

wobei wnagw_{nag} der Leitungsparameter von NAG ist.

Implementierungsstrategie

Folgt der Trainingsstrategie von CFG: Während des Trainings wird die Rausch-Bedingung tt mit fester Wahrscheinlichkeit zufällig verworfen, sodass das Modell Gewichte zwischen bedingten und unbedingten Zielen teilt.

Technische Innovationspunkte

  1. Direkte Adressierung der Rauschverschiebung: NAG adressiert direkt das Rauschpegel-Nichtübereinstimmungsproblem, anstatt es indirekt zu mindern
  2. Orthogonal zu CFG: Die von NAG eingeführte Rauschpegel-Bedingungsachse ist orthogonal zur Bedingungsachse von CFG und bietet komplementäre Kontrolle
  3. Einfach und effektiv: Benötigt keinen externen Klassifizierer und kann direkt in bestehende Modelle integriert werden

Experimentelle Einrichtung

Datensätze

  • ImageNet 256×256: Verwendung des vortrainierten Stable Diffusion VAE zur Gewinnung von 32×32×4 latenten Vektoren
  • Überwachte Feinabstimmungsdatensätze: Food101, SUN397, DF20-Mini, Caltech101, CUB-200-2011, ArtBench-10, Stanford Cars

Modellarchitektur

  • DiT (Diffusion Transformers): Varianten S/2, B/2, L/2, XL/2
  • SiT (Scalable Interpolant Transformers): Varianten mit gleicher Konfiguration

Bewertungsmetriken

  • FID (Fréchet Inception Distance): Primäre Bewertungsmetrik
  • Precision & Recall: Für die Bewertung konvergierter Ergebnisse

Implementierungsdetails

  • Samplingschritte: DiT verwendet 250-Schritte-DDPM-Sampling, SiT verwendet 250-Schritte-SDE-Euler-Maruyama-Sampling
  • Leitungsgewichte: wnag=3.0w_{nag} = 3.0 (ohne CFG), wnag=2.0w_{nag} = 2.0 (mit CFG)
  • Rausch-Dropout: 10% Wahrscheinlichkeit zum Verwerfen der Rausch-Bedingung während des Trainings

Experimentelle Ergebnisse

Hauptergebnisse

ImageNet-Generierung

Tabelle 1: Vergleichsergebnisse konvergierter Modelle

ModellTrainingsschritteGenerierung ohne CFGGenerierung mit CFG
DiT-XL/21400FID: 9.62FID: 2.27
+NAG10+(1400*)FID: 2.59FID: 2.14
SiT-XL/21400FID: 8.61FID: 2.06
+NAG10+(1400*)FID: 2.26FID: 1.72

Wichtigste Erkenntnisse:

  • NAG allein kann Generierungsqualität erreichen, die CFG-Leitfaden nahekommt
  • In Kombination mit CFG bietet NAG zusätzliche Verbesserungen
  • Nur 10 zusätzliche Trainingsschritte (ca. 0,7% der Vortrainingskosten) sind erforderlich, um NAG zu aktivieren

Ergebnisse der überwachten Feinabstimmung

Tabelle 2: FID-Vergleich bei Feinabstimmungsaufgaben

MethodeFoodSUNCaltechCUBStanford CarDF-20MArtBenchDurchschnitt FID
Feinabstimmung (ohne CFG)16.0421.4131.349.8111.2917.9222.7618.65
+NAG11.1814.9524.325.685.9214.7919.2213.72
Feinabstimmung (mit CFG)10.9314.1323.845.376.3215.2919.9413.69
+NAG5.788.8121.873.523.9112.5515.6910.31

Effekt der Rauschverschiebungsminderung

Empirische Analysen durch einen externen Rausch-Schätzer gϕg_\phi zeigen:

  • Rauschverschiebung ist in modernen Diffusionsmodellen weit verbreitet
  • Manifestiert sich als systematische Verschiebung zu größeren Rauschpegeln
  • NAG reduziert diese Verschiebung effektiv, besonders im Bereich mit Signal-Rausch-Verhältnis größer als 1

Ablationsstudien

  • Empfindlichkeit des Leitungsgewichts: wnagw_{nag} zeigt stabile Leistung im Bereich 2.0-4.0
  • Einfluss der Samplingschritte: NAG ist bei verschiedenen Samplingschritten effektiv
  • Architektur-Universalität: Zeigt konsistente Verbesserungen sowohl bei DiT als auch bei SiT-Architekturen

Verwandte Arbeiten

Denoisende generative Modelle

  • Diffusionsmodelle: DDPM, DiT und andere konzentrieren sich auf Rauschplanung, Trainingsziele und Modellarchitektur
  • Flussmodelle: Flow Matching und ähnliche Methoden
  • Beschleunigte Abtastung: Höherordnungs-Solver, verbesserte Intervallmodellierung und andere

Leitungstechniken

  • Klassifizierer-Leitfaden: Verwendung externer Klassifizierer für bedingte Generierung
  • Klassifiziererfreier Leitfaden (CFG): Realisierung von Leitfaden durch Mischung bedingter und unbedingter Modelle
  • Domain-Leitfaden (DoG): Speziell für Feinabstimmungsszenarien entwickelte Leitfadenmethode

Das NAG in diesem Paper ist die erste Methode, die explizit den Rauschpegel selbst als Leitungssignal verwendet und direkt die Ausrichtung mit der erwarteten Rausch-Bedingung verbessert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Rauschverschiebung ist weit verbreitet: Training-Inferenz-Nichtübereinstimmung wird in modernen denoisenden generativen Modellen weit verbreitet gefunden
  2. NAG mindert das Problem effektiv: Durch direkte Adressierung der Rauschpegel-Nichtübereinstimmung wird die Generierungsqualität erheblich verbessert
  3. Starke Methodenuniversalität: Zeigt konsistente Verbesserungen über verschiedene Architekturen, Aufgaben und Baseline-Methoden hinweg

Einschränkungen

  1. Abhängigkeit vom Rausch-Schätzer: Empirische Analysen hängen von der Genauigkeit des externen Rausch-Schätzers ab
  2. Vereinfachte theoretische Analyse: Theoretische Analysen basieren auf vereinfachten Annahmen und erfassen möglicherweise nicht vollständig die tatsächliche Komplexität
  3. Rechnerischer Aufwand: Erfordert zusätzliches Training eines unbedingten Zweigs

Zukünftige Richtungen

Die Autoren hoffen, dass diese Arbeit Forscher auf das weit verbreitete Training-Inferenz-Nichtübereinstimmungsproblem in denoisenden Generierungsmodellen aufmerksam macht und folgende Forschungsrichtungen fördert:

  • Theoretische oder empirische Analysen des Rauschverschiebungsproblems
  • Konstruktion von Generierungsmodellen, die robust gegen Verschiebungen in der Inferenzphase sind
  • Erkundung der Grenzen hochqualitativer Generierung
  • Schnellere Samplingmethoden

Tiefgreifende Bewertung

Stärken

  1. Innovative Problembeschreibung: Erste systematische Identifikation und Analyse des weit verbreiteten, aber übersehenen Rauschverschiebungsproblems
  2. Einfache und effektive Methode: NAG ist einfach gestaltet, leicht in bestehende Modelle integrierbar und zeigt signifikante Effekte
  3. Umfassende Experimente: Umfasst mehrere Architekturen, Datensätze und Aufgaben und validiert die Universalität der Methode
  4. Theoretische Unterstützung: Bietet mathematische Analyse und Näherungsformeln für Rauschverschiebung
  5. Hoher praktischer Wert: Kann direkt angewendet werden, um die Leistung bestehender Modelle mit minimalem zusätzlichem Training erheblich zu verbessern

Mängel

  1. Einschränkungen der theoretischen Analyse: Basiert auf vereinfachten Annahmen und erfasst möglicherweise nicht vollständig komplexe reale Situationen
  2. Rausch-Schätzer-Problem: Empirische Analysen hängen von externen Schätzern ab und können zusätzliche Fehler einführen
  3. Rechnerische Kosten: Erfordert Training eines zusätzlichen unbedingten Zweigs, was Trainings- und Inferenzkosten erhöht
  4. Anwendungsbereich: Hauptsächlich bei visuellen Generierungsaufgaben validiert, Anwendbarkeit auf andere Modalitäten unbekannt

Einfluss

  1. Akademischer Beitrag: Offenbart wichtige Probleme in denoisenden generativen Modellen und bietet neue Forschungsrichtungen für das Feld
  2. Praktischer Wert: Kann direkt angewendet werden, um die Leistung bestehender Modelle zu verbessern, mit starker Praktikabilität
  3. Methoden-Universalität: Orthogonal und komplementär zu bestehenden Leitfadenmethoden mit breiter Anwendbarkeit

Anwendungsszenarien

  • Großflächige Bildgenerierungsaufgaben
  • Überwachte Feinabstimmung vortrainierter Modelle
  • Anwendungsszenarien, die hochwertige Generierung erfordern
  • Umgebungen mit relativ ausreichenden Rechenressourcen

Referenzen

Das Paper zitiert wichtige Arbeiten in verwandten Bereichen wie Diffusionsmodelle, Flussmodelle und Leitfadentechniken, einschließlich:

  • Ho et al. (2020): Originalpaper zu DDPM
  • Peebles & Xie (2023): DiT-Architektur
  • Ma et al. (2024): SiT-Architektur
  • Ho & Salimans (2021): Klassifiziererfreier Leitfaden
  • Dhariwal & Nichol (2021): Klassifizierer-Leitfaden

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspaper, das ein wichtiges, aber übersehenes Problem in denoisenden generativen Modellen identifiziert, eine einfache und effektive Lösung vorschlägt und die Effektivität und Universalität der Methode durch umfassende Experimente validiert. Diese Arbeit hat wichtige akademische und praktische Bedeutung für das Diffusionsmodell-Feld.