2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.

Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.

academic

Sintesi Realistica del Rumore con Modelli di Diffusione

Informazioni Fondamentali

ID Articolo: 2305.14022
Titolo: Realistic Noise Synthesis with Diffusion Models
Autori: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
Istituzioni: Megvii Technology Inc., University of Electronic Science and Technology of China
Classificazione: cs.CV eess.IV
Data di Pubblicazione: 2 gennaio 2025 (arXiv v4)
Link Articolo: https://arxiv.org/abs/2305.14022
Link Codice: https://github.com/wuqi-coder/RNSD

Riassunto

I modelli di denoising profondo richiedono grandi quantità di dati di addestramento dal mondo reale, ma tali dati sono difficili da ottenere. Le tecniche di sintesi del rumore esistenti faticano a modellare accuratamente distribuzioni di rumore complesse. Questo articolo propone un nuovo metodo di diffusore di sintesi del rumore realistico (RNSD), utilizzando modelli di diffusione per affrontare queste sfide. Codificando le impostazioni della fotocamera come modulazione affine della fotocamera consapevole del tempo (TCCAM), RNSD genera distribuzioni di rumore più realistiche in varie condizioni di fotocamera. Inoltre, RNSD integra un modulo multi-scala consapevole del contenuto (MCAM), in grado di generare rumore strutturato con correlazione spaziale a più frequenze. L'articolo introduce inoltre una sequenza di campionamento apprendibile basata sul prior di immagine profonda — campionamento del prior di immagine profonda (DIPS) — che accelera significativamente il processo di campionamento mantenendo un'elevata qualità del rumore sintetizzato.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il denoising di immagini nell'apprendimento profondo è un problema mal posto, che tipicamente richiede un addestramento supervisionato con numerose coppie di immagini rumorose-pulite. Nel dominio RGB, un'immagine rumorosa y può essere modellata come:

y = ISP(s + n)

dove s è la versione priva di rumore, n è il rumore dopo l'elaborazione del segnale di immagine (ISP).

Sfide Fondamentali

Distribuzioni di rumore irregolari e diversificate: I parametri di post-elaborazione ISP (come AWB, CCM, GAMMA) causano variazioni di rumore non uniformi tra scene diverse, canali, livelli ISO e pixel
Rumore strutturato e correlazione spaziale: Le operazioni ISP correlate spazialmente (demosaicing, denoising, sharpening) introducono modelli di struttura locale nel rumore, aumentandone la correlazione con il rapporto segnale-rumore

Limitazioni dei Metodi Esistenti

Metodi di media multi-frame: Difficili da ottenere e non forniscono tipi di rumore diversificati, non riescono a gestire il rumore strutturato
Metodi di modellazione tradizionali: Modellano il rumore come rumore bianco gaussiano, ignorando la correlazione spaziale nel rumore reale
Metodi GAN: Affrontano frequentemente instabilità e collasso di modalità a causa della mancanza di una rigorosa funzione di verosimiglianza, portando a rumore generato che non corrisponde alla distribuzione del rumore reale

Contributi Fondamentali

Primo metodo di sintesi di dati di rumore reale basato su modelli di diffusione RNSD
Progettazione della modulazione affine della fotocamera consapevole del tempo (TCCAM), in grado di controllare meglio la distribuzione e il livello del rumore generato
Costruzione del modulo multi-scala consapevole del contenuto (MCAM), che introduce accoppiamento di informazioni multi-frequenza per generare rumore più realistico con correlazione spaziale
Proposta del campionamento del prior di immagine profonda (DIPS): Basato sul prior di immagine profonda in cui la rete apprende prima le componenti a bassa frequenza e poi quelle ad alta frequenza, riducendo il modello da 1000 passi a soli 5 passi, con una perdita di precisione di solo il 4%
Raggiungimento di risultati all'avanguardia su più benchmark e metriche, migliorando significativamente le prestazioni del modello di denoising

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: immagine pulita s e impostazioni della fotocamera cs Output: immagine rumorosa y con distribuzione di rumore realistico Obiettivo: il rumore generato deve corrispondere alla distribuzione del rumore prodotta dalla fotocamera reale nelle impostazioni corrispondenti

Architettura del Modello

1. Generazione di Rumore Basata su Diffusione

RNSD utilizza l'immagine di rumore reale y come stato iniziale x₀ per costruire il processo di diffusione. Adotta il modello probabilistico di DDPM:

Processo in Avanti:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

Processo Inverso:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. Modulazione Affine della Fotocamera Consapevole del Tempo (TCCAM)

Per gestire diverse distribuzioni di rumore in condizioni diverse, TCCAM codifica cinque fattori chiave:

cs = φ(iso, ss, st, ct, bm)

dove iso è il valore ISO, ss è la velocità dell'otturatore, st è il tipo di sensore, ct è la temperatura di colore, bm è la modalità di luminosità.

TCCAM viene implementato attraverso un meccanismo di impostazione dinamica:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. Modulo Multi-scala Consapevole del Contenuto (MCAM)

MCAM estrae caratteristiche di xₜ e dell'immagine pulita s in tre fasi di sottocampionamento:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. Campionamento del Prior di Immagine Profonda (DIPS)

Basato sull'osservazione che la rete apprende prima le componenti a bassa frequenza e poi quelle ad alta frequenza, DIPS propone una nuova strategia di campionamento:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced utilizza la distillazione di modelli a passo singolo:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

Punti di Innovazione Tecnica

Progettazione di Diffusione Condizionata: Prima applicazione di modelli di diffusione alla sintesi del rumore, realizzando un controllo preciso attraverso condizioni di fotocamera e consapevolezza del contenuto
Modulazione Adattiva nel Tempo: TCCAM regola dinamicamente i pesi dell'influenza delle impostazioni della fotocamera in base al passo di campionamento
Accoppiamento Multi-frequenza: MCAM modella la correlazione tra rumore e contenuto dell'immagine su più scale
Strategia di Campionamento Intelligente: DIPS migliora significativamente l'efficienza di campionamento basandosi sul prior di immagine profonda

Configurazione Sperimentale

Dataset

SIDD: Contiene SIDD small (160 coppie di immagini da 5 fotocamere smartphone) e SIDD medium (doppio campionamento di rumore)
DND: 50 immagini di riferimento e corrispondenti immagini rumorose generate utilizzando un modello di rumore del sensore preciso
LSDIR: 84.991 campioni puliti di alta qualità

Metriche di Valutazione

AKLD: Valuta la somiglianza della distribuzione del rumore, più basso è meglio
PGap: Valuta la qualità della generazione del rumore, più basso è meglio
PSNR/SSIM: Valutano le prestazioni del modello di denoising

Metodi di Confronto

Metodi di sintesi del rumore: C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA
Modelli di denoising: DnCNN, RIDNet, NAFNet

Dettagli di Implementazione

Addestramento DDPM con 1000 passi, lunghezza di accumulo del gradiente 2, ottimizzatore Adam (lr=8×10⁻⁵)
Campioni di addestramento: ritagli 128×128, dimensione batch 16
Addestramento su GPU NVIDIA GeForce RTX 2080 Ti per 2×10⁵ iterazioni
Decadimento EMA 0.995

Risultati Sperimentali

Risultati Principali

Confronto della Qualità della Generazione del Rumore

Metodo	AKLD↓	PGap↓
GRDN	0.443	2.28
C2N	0.314	6.85
sRGB2Flow	0.237	6.3
DANet	0.212	2.06
NeCA	0.156	0.97
PNGAN	0.153	0.84
RNSD	0.117	0.54

RNSD migliora di 0.027 su AKLD rispetto allo SOTA, riduce PGap di 0.30, superando significativamente i metodi esistenti.

Miglioramento delle Prestazioni di Denoising

Utilizzando dati sintetizzati da RNSD per addestrare DnCNN, il PSNR raggiunge 38.11dB, vicino ai 38.40dB dell'addestramento con dati reali, migliorando di 0.75dB rispetto ai metodi SOTA.

Esperimenti di Ablazione

Verifica dell'Efficacia dei Moduli

Metodo	AKLD↓
Baseline	0.169
+ concatenazione impostazioni fotocamera	0.137
+ TCCAM	0.126
+ MCAM	0.117

Efficienza di Campionamento DIPS

Passi	DDIM	DIPS-Basic	DIPS-Advanced
5	0.356	0.208	0.122
30	0.131	0.117	0.120

DIPS-Advanced con campionamento a 5 passi ha solo il 4% di perdita di precisione, superando significativamente DDIM.

Effetti dell'Aumento dei Dati

Aumento dei Campioni di Rumore

Sul set di validazione SIDD, dopo l'aumento con RNSD:

DnCNN-B: miglioramento PSNR di 0.57dB
RIDNet: miglioramento PSNR di 0.54dB
NAFNet: miglioramento PSNR di 0.61dB

Aumento dei Campioni di Scena

Utilizzando l'aumento di dati LSDIR per la diversità di scena:

RIDNet migliora di 0.33dB su SIDD, di 0.14dB su DND
NAFNet migliora significativamente di 0.62dB su DND

Lavori Correlati

Modellazione del Rumore

I metodi tradizionali utilizzano il modello gaussiano-poissoniano, ma le complesse operazioni ISP compromettono la regolarità del rumore e introducono correlazione spaziale complessa.

Metodi GAN

Sebbene i GAN mostrino prestazioni forti nell'adattamento della distribuzione dei dati, affrontano frequentemente instabilità e scarsa convergenza a causa della mancanza di una massima verosimiglianza esplicita.

Metodi di Diffusione

I modelli di diffusione possono gestire distribuzioni di rumore reale complesse e diversificate, evitando il collasso di modalità e fornendo risultati più diversificati, ma non erano stati precedentemente applicati efficacemente alla generazione di rumore sintetizzato.

Conclusioni e Discussione

Conclusioni Principali

RNSD applica con successo per la prima volta modelli di diffusione alla sintesi del rumore reale, superando significativamente i metodi esistenti
La progettazione di TCCAM e MCAM affronta efficacemente i problemi del controllo delle condizioni della fotocamera e della modellazione della correlazione spaziale
DIPS migliora significativamente l'efficienza di campionamento, rendendo possibile l'applicazione pratica
I dati sintetizzati generati possono migliorare significativamente le prestazioni e la capacità di generalizzazione del modello di denoising

Limitazioni

L'addestramento richiede dati di rumore reale come supervisione, in alcuni scenari di applicazione persiste ancora la difficoltà di acquisizione dei dati
Sebbene DIPS migliori l'efficienza, rispetto all'utilizzo diretto di dati reali richiede ancora un sovraccarico computazionale aggiuntivo
Il metodo è principalmente orientato al rumore nel dominio RGB, l'applicabilità al rumore nel dominio RAW richiede ulteriore verifica

Direzioni Future

Esplorare metodi di sintesi del rumore non supervisionati o debolmente supervisionati
Estendere alla sintesi del rumore video e ad altre modalità di imaging
Ottimizzare ulteriormente l'efficienza di campionamento per realizzare la generazione di rumore in tempo reale

Valutazione Approfondita

Punti di Forza

Forte innovazione metodologica: Prima applicazione riuscita di modelli di diffusione alla sintesi del rumore, con TCCAM, MCAM e DIPS che hanno chiari motivi teorici
Progettazione sperimentale completa: Verifica dell'efficacia del metodo da più dimensioni incluse qualità del rumore, prestazioni di denoising e esperimenti di ablazione
Alto valore di applicazione pratica: Migliora significativamente le prestazioni del modello di denoising, risolvendo il problema pratico della scarsità di dati di addestramento reali
Dettagli tecnici completi: Fornisce algoritmi completi e dettagli di implementazione, facilitando la riproduzione

Insufficienze

Analisi della complessità computazionale insufficiente: Sebbene menzioni il tempo di inferenza, manca un'analisi dettagliata della complessità computazionale e del confronto del consumo di memoria
Verifica della generalizzabilità limitata: Principalmente verificato su dati di fotocamere smartphone, la generalizzabilità ad altri tipi di fotocamere richiede ulteriore verifica
Profondità di analisi teorica insufficiente: Manca un'analisi teorica approfondita del perché i modelli di diffusione siano particolarmente adatti alla sintesi del rumore

Impatto

Contributo accademico: Fornisce un nuovo percorso tecnico per il campo della sintesi del rumore, potenzialmente stimolando ricerche successive
Valore pratico: Può risolvere effettivamente il problema della insufficienza di dati di addestramento per i modelli di denoising
Riproducibilità: Fornisce codice e implementazione dettagliata, facilitando l'uso e il miglioramento da parte dei ricercatori

Scenari di Applicazione

Aumento dei dati per l'addestramento di modelli di denoising di immagini
Analisi e modellazione delle caratteristiche di rumore della fotocamera
Valutazione e ottimizzazione della qualità dell'immagine
Applicazioni correlate alla fotografia computazionale

Bibliografia

L'articolo cita importanti lavori nei campi dei modelli di diffusione, della modellazione del rumore e del denoising di immagini, inclusi articoli classici su modelli di diffusione come DDPM e DDIM, nonché letteratura su importanti dataset come SIDD e DND, fornendo una base teorica solida per il lavoro.