2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.
Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic

Realistische Rauschsynthese mit Diffusionsmodellen

Grundinformationen

  • Paper-ID: 2305.14022
  • Titel: Realistic Noise Synthesis with Diffusion Models
  • Autoren: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
  • Institutionen: Megvii Technology Inc., University of Electronic Science and Technology of China
  • Klassifizierung: cs.CV eess.IV
  • Veröffentlichungsdatum: 2. Januar 2025 (arXiv v4)
  • Paper-Link: https://arxiv.org/abs/2305.14022
  • Code-Link: https://github.com/wuqi-coder/RNSD

Zusammenfassung

Tiefe Entrauschungsmodelle erfordern große Mengen an realen Trainingsdaten, die jedoch schwer zu beschaffen sind. Bestehende Rauschsynthese-Techniken können komplexe Rauschverteilungen nicht präzise modellieren. Dieses Paper stellt eine neuartige Methode zur realistischen Rauschsynthese mit Diffusoren (RNSD) vor, die Diffusionsmodelle zur Bewältigung dieser Herausforderungen nutzt. Durch die Kodierung von Kameraeinstellungen als zeitbewusste kamerabedingte affine Modulation (TCCAM) erzeugt RNSD unter verschiedenen Kamerabedingungen realistischere Rauschverteilungen. Darüber hinaus integriert RNSD ein Multi-Skalen-inhaltsgesteuertes Modul (MCAM), das strukturiertes Rauschen mit räumlicher Korrelation auf mehreren Frequenzen erzeugen kann. Das Paper führt auch eine lernbare Abtastsequenz basierend auf Deep Image Prior ein – Deep Image Prior Sampling (DIPS) – das den Abtastprozess erheblich beschleunigt, während die hohe Qualität des synthetisierten Rauschens erhalten bleibt.

Forschungshintergrund und Motivation

Problemdefinition

Bildentrauschung im Deep Learning ist ein schlecht gestelltes Problem, das typischerweise große Mengen an Rausch-Sauberbild-Paaren für überwachtes Training erfordert. Im RGB-Bereich kann ein verrauschtes Bild y modelliert werden als:

y = ISP(s + n)

wobei s die rauschfreie Version ist und n das Rauschen nach der Bildverarbeitungspipeline (ISP) darstellt.

Kernherausforderungen

  1. Unregelmäßige und vielfältige Rauschverteilungen: ISP-Nachbearbeitungsparameter (wie AWB, CCM, GAMMA) führen zu nicht-uniformen Rauschschwankungen zwischen verschiedenen Szenen, Kanälen, ISO-Stufen und Pixeln
  2. Strukturiertes Rauschen und räumliche Korrelation: Räumlich korrelierte ISP-Operationen (Demosaicing, Entrauschung, Schärfung) führen lokale Strukturmuster in das Rauschen ein und erhöhen dessen Korrelation mit dem Signal-Rausch-Verhältnis

Einschränkungen bestehender Methoden

  • Multi-Frame-Mittelungsmethoden: Schwer zu beschaffen und können keine vielfältigen Rauschtypen bereitstellen, können strukturiertes Rauschen nicht verarbeiten
  • Traditionelle Modellierungsmethoden: Modellieren Rauschen als Gaußsches weißes Rauschen und ignorieren räumliche Korrelation in echtem Rauschen
  • GAN-Methoden: Aufgrund fehlender strikter Likelihood-Funktionen treten häufig Instabilität und Mode-Collapse auf, was zu Nichtübereinstimmung zwischen generiertem und echtem Rauschen führt

Kernbeiträge

  1. Erste Vorstellung einer auf Diffusionsmodellen basierenden Methode zur realistischen Rauschsynthese RNSD
  2. Entwurf von zeitbewusster kamerabedingte affiner Modulation (TCCAM), die eine bessere Kontrolle über die Verteilung und das Niveau des generierten Rauschens ermöglicht
  3. Konstruktion eines Multi-Skalen-inhaltsgesteuerten Moduls (MCAM), das Multi-Frequenz-Informationskopplung einführt und realistischeres Rauschen mit räumlicher Korrelation erzeugt
  4. Vorstellung von Deep Image Prior Sampling (DIPS): Basierend auf dem Deep Image Prior, dass Netzwerke zuerst niedrige Frequenzen und dann hohe Frequenzkomponenten lernen, wird das 1000-Schritte-Modell auf nur 5 Schritte reduziert, mit nur 4% Genauigkeitsverlust
  5. Erreichung von State-of-the-Art-Ergebnissen auf mehreren Benchmarks und Metriken, die die Leistung von Entrauschungsmodellen erheblich verbessern

Methodische Details

Aufgabendefinition

Eingabe: Sauberes Bild s und Kameraeinstellungen cs Ausgabe: Verrauschtes Bild y mit realistischer Rauschverteilung Ziel: Das generierte Rauschen sollte der Rauschverteilung entsprechen, die die echte Kamera unter den entsprechenden Einstellungen erzeugt

Modellarchitektur

1. Diffusionsbasierte Rauschgenerierung

RNSD verwendet das echte verrauschte Bild y als Anfangszustand x₀ zur Konstruktion des Diffusionsprozesses. Es wird das DDPM-Wahrscheinlichkeitsmodell verwendet:

Vorwärtsprozess:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

Rückwärtsprozess:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. Zeitbewusste kamerabedingte affine Modulation (TCCAM)

Um vielfältige Rauschverteilungen unter verschiedenen Bedingungen zu verarbeiten, kodiert TCCAM fünf Schlüsselfaktoren:

cs = φ(iso, ss, st, ct, bm)

wobei iso der ISO-Wert ist, ss die Verschlusszeit, st der Sensortyp, ct die Farbtemperatur und bm der Helligkeitsmodus.

TCCAM wird durch einen dynamischen Einstellungsmechanismus realisiert:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. Multi-Skalen-inhaltsgesteuertes Modul (MCAM)

MCAM extrahiert Merkmale von xₜ und dem sauberen Bild s in drei Downsampling-Stufen:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. Deep Image Prior Sampling (DIPS)

Basierend auf der Beobachtung, dass Netzwerke zuerst niedrige und dann hohe Frequenzen lernen, schlägt DIPS eine neue Abtaststrategie vor:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced verwendet Single-Step-Modell-Destillation:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

Technische Innovationspunkte

  1. Bedingte Diffusionsgestaltung: Erste Anwendung von Diffusionsmodellen auf Rauschsynthese, Erreichung präziser Kontrolle durch Kamerabedingungen und Inhaltsgesteuerung
  2. Zeitadaptive Modulation: TCCAM passt dynamisch die Gewichte des Kameraeinstellungseinflusses je nach Abtastschritt an
  3. Multi-Frequenz-Kopplung: MCAM modelliert die Korrelation zwischen Rauschen und Bildinhalten auf mehreren Skalen
  4. Intelligente Abtaststrategie: DIPS verbessert die Abtasteffizienz erheblich basierend auf Deep Image Prior

Experimentelle Einrichtung

Datensätze

  • SIDD: Enthält SIDD small (160 Bildpaare von 5 Smartphone-Kameras) und SIDD medium (doppelte Rauschproben)
  • DND: 50 Referenzbilder und entsprechende echte verrauschte Bilder, die mit präzisen Sensorrauschmodellen generiert wurden
  • LSDIR: 84.991 hochwertige saubere Proben

Bewertungsmetriken

  • AKLD: Bewertet die Ähnlichkeit der Rauschverteilung, niedriger ist besser
  • PGap: Bewertet die Qualität der Rauschgenerierung, niedriger ist besser
  • PSNR/SSIM: Bewertet die Leistung des Entrauschungsmodells

Vergleichsmethoden

  • C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA und andere Rauschsynthese-Methoden
  • DnCNN, RIDNet, NAFNet und andere Entrauschungsmodelle

Implementierungsdetails

  • 1000-Schritte-DDPM-Training, Gradienten-Akkumulationsschrittgröße 2, Adam-Optimierer (lr=8×10⁻⁵)
  • Trainingsmuster: 128×128-Zuschnitte, Batch-Größe 16
  • NVIDIA GeForce RTX 2080 Ti GPU-Training für 2×10⁵ Iterationen
  • EMA-Zerfall 0,995

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Rauschgenerierungsqualität

MethodeAKLD↓PGap↓
GRDN0,4432,28
C2N0,3146,85
sRGB2Flow0,2376,3
DANet0,2122,06
NeCA0,1560,97
PNGAN0,1530,84
RNSD0,1170,54

RNSD verbessert SOTA bei AKLD um 0,027 und reduziert PGap um 0,30, deutlich überlegen gegenüber bestehenden Methoden.

Verbesserung der Entrauschungsleistung

Mit RNSD-synthetisierten Daten trainiertes DnCNN erreicht PSNR von 38,11 dB, nahe dem mit echten Daten trainierten 38,40 dB, eine Verbesserung von 0,75 dB gegenüber SOTA-Methoden.

Ablationsstudien

Validierung der Moduleffektivität

MethodeAKLD↓
Baseline0,169
+ Verkettete Kameraeinstellungen0,137
+ TCCAM0,126
+ MCAM0,117

DIPS-Abtasteffizienz

SchritteDDIMDIPS-BasicDIPS-Advanced
50,3560,2080,122
300,1310,1170,120

DIPS-Advanced zeigt bei 5-Schritte-Abtastung nur 4% Genauigkeitsverlust, deutlich überlegen gegenüber DDIM.

Datenaugmentierungseffekte

Erhöhung von Rauschproben

Auf dem SIDD-Validierungssatz mit RNSD-Augmentierung:

  • DnCNN-B: PSNR-Verbesserung um 0,57 dB
  • RIDNet: PSNR-Verbesserung um 0,54 dB
  • NAFNet: PSNR-Verbesserung um 0,61 dB

Szenario-Probenaugmentierung

Verwendung von LSDIR-Daten zur Erhöhung der Szenariovielfalt:

  • RIDNet verbessert sich um 0,33 dB auf SIDD und um 0,14 dB auf DND
  • NAFNet verbessert sich deutlich um 0,62 dB auf DND

Verwandte Arbeiten

Rauschmodellierung

Traditionelle Methoden verwenden Gaußsch-Poisson-Modelle, aber komplexe ISP-Operationen zerstören die Rauschregelmäßigkeit und führen zu komplexer räumlicher Korrelation.

GAN-Methoden

Obwohl GANs bei der Anpassung von Datenverteilungen stark sind, treten aufgrund fehlender expliziter Maximum-Likelihood häufig Instabilität und Konvergenzprobleme auf.

Diffusionsmethoden

Diffusionsmodelle können komplexe und vielfältige echte Rauschverteilungen verarbeiten, vermeiden Mode-Collapse und bieten vielfältigere Ergebnisse, wurden aber zuvor nicht effektiv für die Synthese von Rauschgenerierung angewendet.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. RNSD wendet erfolgreich erstmals Diffusionsmodelle auf realistische Rauschsynthese an und ist deutlich überlegen gegenüber bestehenden Methoden
  2. Das Design von TCCAM und MCAM löst effektiv die Probleme der Kamerabedingungs-Kontrolle und der Modellierung räumlicher Korrelation
  3. DIPS verbessert die Abtasteffizienz erheblich und macht praktische Anwendungen möglich
  4. Die generierten synthetischen Daten können die Leistung und Verallgemeinerungsfähigkeit von Entrauschungsmodellen erheblich verbessern

Einschränkungen

  1. Das Training erfordert echte Rauschddaten als Überwachung, was in bestimmten Anwendungsszenarien immer noch Schwierigkeiten bei der Datenbeschaffung mit sich bringt
  2. Obwohl DIPS die Effizienz verbessert, erfordert es immer noch zusätzliche Rechenkosten im Vergleich zur direkten Verwendung echter Daten
  3. Die Methode konzentriert sich hauptsächlich auf RGB-Bereich-Rauschen; die Anwendbarkeit auf RAW-Bereich-Rauschen erfordert weitere Verifikation

Zukünftige Richtungen

  1. Erkundung unüberwachter oder schwach überwachter Rauschsynthese-Methoden
  2. Erweiterung auf Video-Rauschsynthese und andere Imaging-Modalitäten
  3. Weitere Optimierung der Abtasteffizienz zur Realisierung von Echtzeit-Rauschgenerierung

Tiefgreifende Bewertung

Stärken

  1. Starke Methodische Innovation: Erste erfolgreiche Anwendung von Diffusionsmodellen auf Rauschsynthese, die vorgeschlagenen TCCAM, MCAM und DIPS haben alle klare theoretische Motivationen
  2. Umfassende experimentelle Gestaltung: Validierung der Methodeneffektivität aus mehreren Dimensionen einschließlich Rauschqualität, Entrauschungsleistung und Ablationsstudien
  3. Hoher praktischer Anwendungswert: Verbessert die Leistung von Entrauschungsmodellen erheblich und löst das praktische Problem der Knappheit echter Trainingsdaten
  4. Vollständige technische Details: Bietet vollständige Algorithmusflüsse und Implementierungsdetails für einfache Reproduzierbarkeit

Mängel

  1. Unzureichende Komplexitätsanalyse: Obwohl Inferenzzeit erwähnt wird, fehlt eine detaillierte Analyse der Rechenkomplexität und des Speicherverbrauchs im Vergleich
  2. Begrenzte Verallgemeinerungsvalidierung: Hauptsächlich auf Smartphone-Kameradaten validiert, die Verallgemeinerungsfähigkeit auf andere Kameratypen erfordert weitere Verifikation
  3. Unzureichende theoretische Tiefe: Mangel an tiefgreifender theoretischer Analyse, warum Diffusionsmodelle besonders für Rauschsynthese geeignet sind

Einfluss

  1. Akademischer Beitrag: Bietet einen neuen technischen Weg für das Rauschsynthese-Feld, der nachfolgende Forschung inspirieren könnte
  2. Praktischer Wert: Kann das praktische Problem der unzureichenden Trainingsdaten für Entrauschungsmodelle tatsächlich lösen
  3. Reproduzierbarkeit: Bietet Code und detaillierte Implementierung für einfache Verwendung und Verbesserung durch Forscher

Anwendungsszenarien

  1. Datenerweiterung für das Training von Bildentrauschungsmodellen
  2. Analyse und Modellierung von Kamerarausch-Charakteristiken
  3. Bildqualitätsbewertung und -optimierung
  4. Anwendungen im Bereich der Rechenphotographie

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten in den Bereichen Diffusionsmodelle, Rauschmodellierung und Bildentrauschung, einschließlich klassischer Diffusionsmodell-Paper wie DDPM und DDIM sowie wichtiger Datensätze wie SIDD und DND, die eine solide theoretische Grundlage für die Arbeit bieten.