2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.

Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.

academic

Realistische Rauschsynthese mit Diffusionsmodellen

Grundinformationen

Paper-ID: 2305.14022
Titel: Realistic Noise Synthesis with Diffusion Models
Autoren: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
Institutionen: Megvii Technology Inc., University of Electronic Science and Technology of China
Klassifizierung: cs.CV eess.IV
Veröffentlichungsdatum: 2. Januar 2025 (arXiv v4)
Paper-Link: https://arxiv.org/abs/2305.14022
Code-Link: https://github.com/wuqi-coder/RNSD

Zusammenfassung

Tiefe Entrauschungsmodelle erfordern große Mengen an realen Trainingsdaten, die jedoch schwer zu beschaffen sind. Bestehende Rauschsynthese-Techniken können komplexe Rauschverteilungen nicht präzise modellieren. Dieses Paper stellt eine neuartige Methode zur realistischen Rauschsynthese mit Diffusoren (RNSD) vor, die Diffusionsmodelle zur Bewältigung dieser Herausforderungen nutzt. Durch die Kodierung von Kameraeinstellungen als zeitbewusste kamerabedingte affine Modulation (TCCAM) erzeugt RNSD unter verschiedenen Kamerabedingungen realistischere Rauschverteilungen. Darüber hinaus integriert RNSD ein Multi-Skalen-inhaltsgesteuertes Modul (MCAM), das strukturiertes Rauschen mit räumlicher Korrelation auf mehreren Frequenzen erzeugen kann. Das Paper führt auch eine lernbare Abtastsequenz basierend auf Deep Image Prior ein – Deep Image Prior Sampling (DIPS) – das den Abtastprozess erheblich beschleunigt, während die hohe Qualität des synthetisierten Rauschens erhalten bleibt.

Forschungshintergrund und Motivation

Problemdefinition

Bildentrauschung im Deep Learning ist ein schlecht gestelltes Problem, das typischerweise große Mengen an Rausch-Sauberbild-Paaren für überwachtes Training erfordert. Im RGB-Bereich kann ein verrauschtes Bild y modelliert werden als:

y = ISP(s + n)

wobei s die rauschfreie Version ist und n das Rauschen nach der Bildverarbeitungspipeline (ISP) darstellt.

Kernherausforderungen

Unregelmäßige und vielfältige Rauschverteilungen: ISP-Nachbearbeitungsparameter (wie AWB, CCM, GAMMA) führen zu nicht-uniformen Rauschschwankungen zwischen verschiedenen Szenen, Kanälen, ISO-Stufen und Pixeln
Strukturiertes Rauschen und räumliche Korrelation: Räumlich korrelierte ISP-Operationen (Demosaicing, Entrauschung, Schärfung) führen lokale Strukturmuster in das Rauschen ein und erhöhen dessen Korrelation mit dem Signal-Rausch-Verhältnis

Einschränkungen bestehender Methoden

Multi-Frame-Mittelungsmethoden: Schwer zu beschaffen und können keine vielfältigen Rauschtypen bereitstellen, können strukturiertes Rauschen nicht verarbeiten
Traditionelle Modellierungsmethoden: Modellieren Rauschen als Gaußsches weißes Rauschen und ignorieren räumliche Korrelation in echtem Rauschen
GAN-Methoden: Aufgrund fehlender strikter Likelihood-Funktionen treten häufig Instabilität und Mode-Collapse auf, was zu Nichtübereinstimmung zwischen generiertem und echtem Rauschen führt

Kernbeiträge

Erste Vorstellung einer auf Diffusionsmodellen basierenden Methode zur realistischen Rauschsynthese RNSD
Entwurf von zeitbewusster kamerabedingte affiner Modulation (TCCAM), die eine bessere Kontrolle über die Verteilung und das Niveau des generierten Rauschens ermöglicht
Konstruktion eines Multi-Skalen-inhaltsgesteuerten Moduls (MCAM), das Multi-Frequenz-Informationskopplung einführt und realistischeres Rauschen mit räumlicher Korrelation erzeugt
Vorstellung von Deep Image Prior Sampling (DIPS): Basierend auf dem Deep Image Prior, dass Netzwerke zuerst niedrige Frequenzen und dann hohe Frequenzkomponenten lernen, wird das 1000-Schritte-Modell auf nur 5 Schritte reduziert, mit nur 4% Genauigkeitsverlust
Erreichung von State-of-the-Art-Ergebnissen auf mehreren Benchmarks und Metriken, die die Leistung von Entrauschungsmodellen erheblich verbessern

Methodische Details

Aufgabendefinition

Eingabe: Sauberes Bild s und Kameraeinstellungen cs Ausgabe: Verrauschtes Bild y mit realistischer Rauschverteilung Ziel: Das generierte Rauschen sollte der Rauschverteilung entsprechen, die die echte Kamera unter den entsprechenden Einstellungen erzeugt

Modellarchitektur

1. Diffusionsbasierte Rauschgenerierung

RNSD verwendet das echte verrauschte Bild y als Anfangszustand x₀ zur Konstruktion des Diffusionsprozesses. Es wird das DDPM-Wahrscheinlichkeitsmodell verwendet:

Vorwärtsprozess:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

Rückwärtsprozess:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. Zeitbewusste kamerabedingte affine Modulation (TCCAM)

Um vielfältige Rauschverteilungen unter verschiedenen Bedingungen zu verarbeiten, kodiert TCCAM fünf Schlüsselfaktoren:

cs = φ(iso, ss, st, ct, bm)

wobei iso der ISO-Wert ist, ss die Verschlusszeit, st der Sensortyp, ct die Farbtemperatur und bm der Helligkeitsmodus.

TCCAM wird durch einen dynamischen Einstellungsmechanismus realisiert:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. Multi-Skalen-inhaltsgesteuertes Modul (MCAM)

MCAM extrahiert Merkmale von xₜ und dem sauberen Bild s in drei Downsampling-Stufen:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. Deep Image Prior Sampling (DIPS)

Basierend auf der Beobachtung, dass Netzwerke zuerst niedrige und dann hohe Frequenzen lernen, schlägt DIPS eine neue Abtaststrategie vor:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced verwendet Single-Step-Modell-Destillation:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

Technische Innovationspunkte

Bedingte Diffusionsgestaltung: Erste Anwendung von Diffusionsmodellen auf Rauschsynthese, Erreichung präziser Kontrolle durch Kamerabedingungen und Inhaltsgesteuerung
Zeitadaptive Modulation: TCCAM passt dynamisch die Gewichte des Kameraeinstellungseinflusses je nach Abtastschritt an
Multi-Frequenz-Kopplung: MCAM modelliert die Korrelation zwischen Rauschen und Bildinhalten auf mehreren Skalen
Intelligente Abtaststrategie: DIPS verbessert die Abtasteffizienz erheblich basierend auf Deep Image Prior

Experimentelle Einrichtung

Datensätze

SIDD: Enthält SIDD small (160 Bildpaare von 5 Smartphone-Kameras) und SIDD medium (doppelte Rauschproben)
DND: 50 Referenzbilder und entsprechende echte verrauschte Bilder, die mit präzisen Sensorrauschmodellen generiert wurden
LSDIR: 84.991 hochwertige saubere Proben

Bewertungsmetriken

AKLD: Bewertet die Ähnlichkeit der Rauschverteilung, niedriger ist besser
PGap: Bewertet die Qualität der Rauschgenerierung, niedriger ist besser
PSNR/SSIM: Bewertet die Leistung des Entrauschungsmodells

Vergleichsmethoden

C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA und andere Rauschsynthese-Methoden
DnCNN, RIDNet, NAFNet und andere Entrauschungsmodelle

Implementierungsdetails

1000-Schritte-DDPM-Training, Gradienten-Akkumulationsschrittgröße 2, Adam-Optimierer (lr=8×10⁻⁵)
Trainingsmuster: 128×128-Zuschnitte, Batch-Größe 16
NVIDIA GeForce RTX 2080 Ti GPU-Training für 2×10⁵ Iterationen
EMA-Zerfall 0,995

Experimentelle Ergebnisse

Hauptergebnisse

Vergleich der Rauschgenerierungsqualität

Methode	AKLD↓	PGap↓
GRDN	0,443	2,28
C2N	0,314	6,85
sRGB2Flow	0,237	6,3
DANet	0,212	2,06
NeCA	0,156	0,97
PNGAN	0,153	0,84
RNSD	0,117	0,54

RNSD verbessert SOTA bei AKLD um 0,027 und reduziert PGap um 0,30, deutlich überlegen gegenüber bestehenden Methoden.

Verbesserung der Entrauschungsleistung

Mit RNSD-synthetisierten Daten trainiertes DnCNN erreicht PSNR von 38,11 dB, nahe dem mit echten Daten trainierten 38,40 dB, eine Verbesserung von 0,75 dB gegenüber SOTA-Methoden.

Ablationsstudien

Validierung der Moduleffektivität

Methode	AKLD↓
Baseline	0,169
+ Verkettete Kameraeinstellungen	0,137
+ TCCAM	0,126
+ MCAM	0,117

DIPS-Abtasteffizienz

Schritte	DDIM	DIPS-Basic	DIPS-Advanced
5	0,356	0,208	0,122
30	0,131	0,117	0,120

DIPS-Advanced zeigt bei 5-Schritte-Abtastung nur 4% Genauigkeitsverlust, deutlich überlegen gegenüber DDIM.

Datenaugmentierungseffekte

Erhöhung von Rauschproben

Auf dem SIDD-Validierungssatz mit RNSD-Augmentierung:

DnCNN-B: PSNR-Verbesserung um 0,57 dB
RIDNet: PSNR-Verbesserung um 0,54 dB
NAFNet: PSNR-Verbesserung um 0,61 dB

Szenario-Probenaugmentierung

Verwendung von LSDIR-Daten zur Erhöhung der Szenariovielfalt:

RIDNet verbessert sich um 0,33 dB auf SIDD und um 0,14 dB auf DND
NAFNet verbessert sich deutlich um 0,62 dB auf DND

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

RNSD wendet erfolgreich erstmals Diffusionsmodelle auf realistische Rauschsynthese an und ist deutlich überlegen gegenüber bestehenden Methoden
Das Design von TCCAM und MCAM löst effektiv die Probleme der Kamerabedingungs-Kontrolle und der Modellierung räumlicher Korrelation
DIPS verbessert die Abtasteffizienz erheblich und macht praktische Anwendungen möglich
Die generierten synthetischen Daten können die Leistung und Verallgemeinerungsfähigkeit von Entrauschungsmodellen erheblich verbessern

Einschränkungen

Das Training erfordert echte Rauschddaten als Überwachung, was in bestimmten Anwendungsszenarien immer noch Schwierigkeiten bei der Datenbeschaffung mit sich bringt
Obwohl DIPS die Effizienz verbessert, erfordert es immer noch zusätzliche Rechenkosten im Vergleich zur direkten Verwendung echter Daten
Die Methode konzentriert sich hauptsächlich auf RGB-Bereich-Rauschen; die Anwendbarkeit auf RAW-Bereich-Rauschen erfordert weitere Verifikation

Zukünftige Richtungen

Erkundung unüberwachter oder schwach überwachter Rauschsynthese-Methoden
Erweiterung auf Video-Rauschsynthese und andere Imaging-Modalitäten
Weitere Optimierung der Abtasteffizienz zur Realisierung von Echtzeit-Rauschgenerierung

Tiefgreifende Bewertung

Stärken

Starke Methodische Innovation: Erste erfolgreiche Anwendung von Diffusionsmodellen auf Rauschsynthese, die vorgeschlagenen TCCAM, MCAM und DIPS haben alle klare theoretische Motivationen
Umfassende experimentelle Gestaltung: Validierung der Methodeneffektivität aus mehreren Dimensionen einschließlich Rauschqualität, Entrauschungsleistung und Ablationsstudien
Hoher praktischer Anwendungswert: Verbessert die Leistung von Entrauschungsmodellen erheblich und löst das praktische Problem der Knappheit echter Trainingsdaten
Vollständige technische Details: Bietet vollständige Algorithmusflüsse und Implementierungsdetails für einfache Reproduzierbarkeit

Mängel

Unzureichende Komplexitätsanalyse: Obwohl Inferenzzeit erwähnt wird, fehlt eine detaillierte Analyse der Rechenkomplexität und des Speicherverbrauchs im Vergleich
Begrenzte Verallgemeinerungsvalidierung: Hauptsächlich auf Smartphone-Kameradaten validiert, die Verallgemeinerungsfähigkeit auf andere Kameratypen erfordert weitere Verifikation
Unzureichende theoretische Tiefe: Mangel an tiefgreifender theoretischer Analyse, warum Diffusionsmodelle besonders für Rauschsynthese geeignet sind

Einfluss

Akademischer Beitrag: Bietet einen neuen technischen Weg für das Rauschsynthese-Feld, der nachfolgende Forschung inspirieren könnte
Praktischer Wert: Kann das praktische Problem der unzureichenden Trainingsdaten für Entrauschungsmodelle tatsächlich lösen
Reproduzierbarkeit: Bietet Code und detaillierte Implementierung für einfache Verwendung und Verbesserung durch Forscher

Anwendungsszenarien

Datenerweiterung für das Training von Bildentrauschungsmodellen
Analyse und Modellierung von Kamerarausch-Charakteristiken
Bildqualitätsbewertung und -optimierung
Anwendungen im Bereich der Rechenphotographie

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten in den Bereichen Diffusionsmodelle, Rauschmodellierung und Bildentrauschung, einschließlich klassischer Diffusionsmodell-Paper wie DDPM und DDIM sowie wichtiger Datensätze wie SIDD und DND, die eine solide theoretische Grundlage für die Arbeit bieten.