Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic
Realistische Rauschsynthese mit Diffusionsmodellen
Tiefe Entrauschungsmodelle erfordern große Mengen an realen Trainingsdaten, die jedoch schwer zu beschaffen sind. Bestehende Rauschsynthese-Techniken können komplexe Rauschverteilungen nicht präzise modellieren. Dieses Paper stellt eine neuartige Methode zur realistischen Rauschsynthese mit Diffusoren (RNSD) vor, die Diffusionsmodelle zur Bewältigung dieser Herausforderungen nutzt. Durch die Kodierung von Kameraeinstellungen als zeitbewusste kamerabedingte affine Modulation (TCCAM) erzeugt RNSD unter verschiedenen Kamerabedingungen realistischere Rauschverteilungen. Darüber hinaus integriert RNSD ein Multi-Skalen-inhaltsgesteuertes Modul (MCAM), das strukturiertes Rauschen mit räumlicher Korrelation auf mehreren Frequenzen erzeugen kann. Das Paper führt auch eine lernbare Abtastsequenz basierend auf Deep Image Prior ein – Deep Image Prior Sampling (DIPS) – das den Abtastprozess erheblich beschleunigt, während die hohe Qualität des synthetisierten Rauschens erhalten bleibt.
Bildentrauschung im Deep Learning ist ein schlecht gestelltes Problem, das typischerweise große Mengen an Rausch-Sauberbild-Paaren für überwachtes Training erfordert. Im RGB-Bereich kann ein verrauschtes Bild y modelliert werden als:
y = ISP(s + n)
wobei s die rauschfreie Version ist und n das Rauschen nach der Bildverarbeitungspipeline (ISP) darstellt.
Unregelmäßige und vielfältige Rauschverteilungen: ISP-Nachbearbeitungsparameter (wie AWB, CCM, GAMMA) führen zu nicht-uniformen Rauschschwankungen zwischen verschiedenen Szenen, Kanälen, ISO-Stufen und Pixeln
Strukturiertes Rauschen und räumliche Korrelation: Räumlich korrelierte ISP-Operationen (Demosaicing, Entrauschung, Schärfung) führen lokale Strukturmuster in das Rauschen ein und erhöhen dessen Korrelation mit dem Signal-Rausch-Verhältnis
Multi-Frame-Mittelungsmethoden: Schwer zu beschaffen und können keine vielfältigen Rauschtypen bereitstellen, können strukturiertes Rauschen nicht verarbeiten
Traditionelle Modellierungsmethoden: Modellieren Rauschen als Gaußsches weißes Rauschen und ignorieren räumliche Korrelation in echtem Rauschen
GAN-Methoden: Aufgrund fehlender strikter Likelihood-Funktionen treten häufig Instabilität und Mode-Collapse auf, was zu Nichtübereinstimmung zwischen generiertem und echtem Rauschen führt
Erste Vorstellung einer auf Diffusionsmodellen basierenden Methode zur realistischen Rauschsynthese RNSD
Entwurf von zeitbewusster kamerabedingte affiner Modulation (TCCAM), die eine bessere Kontrolle über die Verteilung und das Niveau des generierten Rauschens ermöglicht
Konstruktion eines Multi-Skalen-inhaltsgesteuerten Moduls (MCAM), das Multi-Frequenz-Informationskopplung einführt und realistischeres Rauschen mit räumlicher Korrelation erzeugt
Vorstellung von Deep Image Prior Sampling (DIPS): Basierend auf dem Deep Image Prior, dass Netzwerke zuerst niedrige Frequenzen und dann hohe Frequenzkomponenten lernen, wird das 1000-Schritte-Modell auf nur 5 Schritte reduziert, mit nur 4% Genauigkeitsverlust
Erreichung von State-of-the-Art-Ergebnissen auf mehreren Benchmarks und Metriken, die die Leistung von Entrauschungsmodellen erheblich verbessern
Eingabe: Sauberes Bild s und Kameraeinstellungen cs
Ausgabe: Verrauschtes Bild y mit realistischer Rauschverteilung
Ziel: Das generierte Rauschen sollte der Rauschverteilung entsprechen, die die echte Kamera unter den entsprechenden Einstellungen erzeugt
RNSD verwendet das echte verrauschte Bild y als Anfangszustand x₀ zur Konstruktion des Diffusionsprozesses. Es wird das DDPM-Wahrscheinlichkeitsmodell verwendet:
Bedingte Diffusionsgestaltung: Erste Anwendung von Diffusionsmodellen auf Rauschsynthese, Erreichung präziser Kontrolle durch Kamerabedingungen und Inhaltsgesteuerung
Zeitadaptive Modulation: TCCAM passt dynamisch die Gewichte des Kameraeinstellungseinflusses je nach Abtastschritt an
Multi-Frequenz-Kopplung: MCAM modelliert die Korrelation zwischen Rauschen und Bildinhalten auf mehreren Skalen
Intelligente Abtaststrategie: DIPS verbessert die Abtasteffizienz erheblich basierend auf Deep Image Prior
Mit RNSD-synthetisierten Daten trainiertes DnCNN erreicht PSNR von 38,11 dB, nahe dem mit echten Daten trainierten 38,40 dB, eine Verbesserung von 0,75 dB gegenüber SOTA-Methoden.
Traditionelle Methoden verwenden Gaußsch-Poisson-Modelle, aber komplexe ISP-Operationen zerstören die Rauschregelmäßigkeit und führen zu komplexer räumlicher Korrelation.
Obwohl GANs bei der Anpassung von Datenverteilungen stark sind, treten aufgrund fehlender expliziter Maximum-Likelihood häufig Instabilität und Konvergenzprobleme auf.
Diffusionsmodelle können komplexe und vielfältige echte Rauschverteilungen verarbeiten, vermeiden Mode-Collapse und bieten vielfältigere Ergebnisse, wurden aber zuvor nicht effektiv für die Synthese von Rauschgenerierung angewendet.
Das Training erfordert echte Rauschddaten als Überwachung, was in bestimmten Anwendungsszenarien immer noch Schwierigkeiten bei der Datenbeschaffung mit sich bringt
Obwohl DIPS die Effizienz verbessert, erfordert es immer noch zusätzliche Rechenkosten im Vergleich zur direkten Verwendung echter Daten
Die Methode konzentriert sich hauptsächlich auf RGB-Bereich-Rauschen; die Anwendbarkeit auf RAW-Bereich-Rauschen erfordert weitere Verifikation
Starke Methodische Innovation: Erste erfolgreiche Anwendung von Diffusionsmodellen auf Rauschsynthese, die vorgeschlagenen TCCAM, MCAM und DIPS haben alle klare theoretische Motivationen
Umfassende experimentelle Gestaltung: Validierung der Methodeneffektivität aus mehreren Dimensionen einschließlich Rauschqualität, Entrauschungsleistung und Ablationsstudien
Hoher praktischer Anwendungswert: Verbessert die Leistung von Entrauschungsmodellen erheblich und löst das praktische Problem der Knappheit echter Trainingsdaten
Vollständige technische Details: Bietet vollständige Algorithmusflüsse und Implementierungsdetails für einfache Reproduzierbarkeit
Unzureichende Komplexitätsanalyse: Obwohl Inferenzzeit erwähnt wird, fehlt eine detaillierte Analyse der Rechenkomplexität und des Speicherverbrauchs im Vergleich
Begrenzte Verallgemeinerungsvalidierung: Hauptsächlich auf Smartphone-Kameradaten validiert, die Verallgemeinerungsfähigkeit auf andere Kameratypen erfordert weitere Verifikation
Unzureichende theoretische Tiefe: Mangel an tiefgreifender theoretischer Analyse, warum Diffusionsmodelle besonders für Rauschsynthese geeignet sind
Das Paper zitiert wichtige Arbeiten in den Bereichen Diffusionsmodelle, Rauschmodellierung und Bildentrauschung, einschließlich klassischer Diffusionsmodell-Paper wie DDPM und DDIM sowie wichtiger Datensätze wie SIDD und DND, die eine solide theoretische Grundlage für die Arbeit bieten.