Diffusion Posterior Sampling (DPS) provides a principled Bayesian approach to inverse problems by sampling from $p(x_0 \mid y)$. However, in practice, the goal of inverse problem solving is not to cover the posterior but to recover the most accurate reconstruction, where optimization-based diffusion solvers often excel despite lacking a clear probabilistic foundation. We introduce Local MAP Sampling (LMAPS), a new inference framework that iteratively solving local MAP subproblems along the diffusion trajectory. This perspective clarifies their connection to global MAP estimation and DPS, offering a unified probabilistic interpretation for optimization-based methods. Building on this foundation, we develop practical algorithms with a probabilistically interpretable covariance approximation, a reformulated objective for stability and interpretability, and a gradient approximation for non-differentiable operators. Across a broad set of image restoration and scientific tasks, LMAPS achieves state-of-the-art performance, including $\geq 2$ dB gains on motion deblurring, JPEG restoration, and quantization, and $>1.5$ dB improvements on inverse scattering benchmarks.
- ID Articolo: 2510.07343
- Titolo: Local MAP Sampling for Diffusion Models
- Autori: Shaorong Zhang (UC Riverside), Rob Brekelmans (Vector Institute), Greg Ver Steeg (UC Riverside)
- Classificazione: cs.GR cs.AI eess.IV
- Data di Pubblicazione/Conferenza: Preprint (In revisione)
- Link Articolo: https://arxiv.org/abs/2510.07343
Il Diffusion Posterior Sampling (DPS) fornisce un approccio bayesiano principiato per i problemi inversi campionando da p(x0∣y). Tuttavia, nella pratica, l'obiettivo della risoluzione di problemi inversi non è coprire la distribuzione a posteriori, bensì recuperare la ricostruzione più accurata; i risolutori di diffusione basati su ottimizzazione generalmente eccellono in questo, sebbene manchino di una base probabilistica chiara. Questo articolo introduce Local MAP Sampling (LMAPS), un nuovo framework di inferenza che risolve iterativamente sottoproblemi MAP locali lungo la traiettoria di diffusione. Questa prospettiva chiarisce i loro collegamenti con la stima MAP globale e DPS, fornendo un'interpretazione probabilistica unificata per i metodi basati su ottimizzazione. Su questa base, sviluppiamo algoritmi pratici con approssimazioni di covarianza probabilisticamente interpretabili, obiettivi riformulati per stabilità e interpretabilità, e approssimazioni di gradiente per operatori non differenziabili.
I modelli di diffusione affrontano due sfide principali nella risoluzione di problemi inversi:
- Disallineamento degli Obiettivi: DPS mira a campionare dalla distribuzione a posteriori p(x0∣y), ma l'obiettivo pratico della risoluzione di problemi inversi è ottenere la ricostruzione più accurata, non il campionamento diversificato
- Mancanza di Fondamenti Teorici: I risolutori di diffusione basati su ottimizzazione (come Resample, DiffPIR, DCDP, ecc.) mostrano eccellenti prestazioni, ma mancano di una base teorica probabilistica chiara
- Orientamento Pratico: I protocolli di valutazione dei problemi inversi generalmente confrontano con un singolo riferimento di verità, non fornendo ricompense per la copertura o la diversità
- Unificazione Teorica: Necessità di fornire interpretazioni probabilistiche per i metodi di ottimizzazione, chiarendo le loro relazioni con la stima MAP e DPS
- Miglioramento delle Prestazioni: Realizzare migliori prestazioni di ricostruzione mantenendo fondamenti teorici
- Contributi Teorici: Propone il framework Local MAP Sampling (LMAPS), che risolve iterativamente sottoproblemi MAP locali lungo la traiettoria di diffusione, analizza le relazioni con MAP globale e DPS, unificando TMPD e metodi basati su ottimizzazione per problemi inversi
- Contributi Metodologici:
- Fornisce approssimazioni di covarianza probabilisticamente interpretabili, sostituendo le scelte euristiche nei risolutori esistenti
- Introduce riformulazione degli obiettivi per parametri interpretabili e stabilità migliorata
- Sviluppa strategie di approssimazione del gradiente per operatori non differenziabili
- Contributi Sperimentali: Verifica su 10 compiti di recupero di immagini e 3 problemi inversi scientifici, raggiungendo i migliori risultati in 46/60 casi FFHQ/ImageNet, ottenendo miglioramenti PSNR ≥2dB su desfocatura da movimento, recupero JPEG e compiti di quantizzazione
Il problema inverso mira a recuperare un'immagine o un segnale sconosciuto x0∈Rn da una distribuzione a priori π(x0) e da una misurazione rumorosa y∈Rm:
y=H(x0)+z
dove H(⋅):Rn→Rm è l'operatore forward e z∼N(0,σy2I) è il rumore di misurazione.
MAP Globale ottimizza direttamente la posteriore completa:
x0MAP:=argmaxx0p(x0∣y)
MAP Locale risolve un problema di ottimizzazione condizionata ad ogni passo temporale t:
x0∗(t,xt,y):=argmaxp(x0∣xt,y)xt−Δt=g(x0∗,xt,ϵ),ϵ∼N(0,I)
- DPS: Utilizza la media condizionata E[x0∣xt,y]
- DAPS: Campiona da p(x0∣xt,y)
- LMAPS: Utilizza la moda condizionata argmaxp(x0∣xt,y)
Intuizione Chiave: DPS e LMAPS sono equivalenti solo quando p(x0∣xt,y) è una distribuzione gaussiana.
Adotta un'approssimazione isotropica:
Σ0∣t≈SNRkI,SNR:=σt2αt2
Riformula l'obiettivo originale:
x0∗=argmin{kSNR∥x0−m0∣t∥2+σy21∥y−H(x0)∥2}
come:
x0∗=argmin{(1−μt)21∥x0−m0∣t∥2+μtk2∥y−H(x0)∥2}
dove μt=σt2+k12σt2∈(0,1), realizzando:
- Interpretazione di Combinazione Convessa: Pesi (1−μt) e μt
- Annealing Automatico: Con la diminuzione di σt2, transizione da guidato dalle misurazioni a guidato dal priore
- Stabilità Numerica: Evita scalature SNR estreme
Per compiti non differenziabili come recupero JPEG e quantizzazione, utilizza gradienti proxy:
∇x0∥y−H(x0)∥2≈2JH′(x0)T(H(x0)−y)
Per la quantizzazione, adotta H′(x0)=x0, semplificando a:
∇x0∥y−H(x0)∥2≈2(H(x0)−y)
- Recupero di Immagini: FFHQ 256×256 e ImageNet 256×256, utilizzando 100 immagini di test ciascuno
- Problemi Inversi Scientifici: Utilizza il dataset InverseBench, includendo immagini di microscopia a fluorescenza (scattering inverso lineare), dati GRMHD (imaging di buchi neri), dati fastMRI del ginocchio (MRI con campionamento compresso)
- Recupero di Immagini: PSNR, SSIM, LPIPS
- Problemi Inversi Scientifici: Principalmente PSNR, integrato con metriche specifiche del compito
Include DDNM, DDRM, ΠGDM, DPS, LGD, PnP-DM, FPS, MCG-diff, RedDiff, DAPS, DiffPIR, DCDP, DMPlug e altri 12 metodi
- Passi di diffusione: Tipicamente 200 passi
- Passi di aggiornamento del gradiente: 20-200 passi (dipendenti dal compito)
- Tasso di apprendimento: 0.01-1.0 (correlato al compito)
- Parametri k1: 0-10, k2: 0.01-30000
Nella Tabella 1, LMAPS raggiunge le migliori prestazioni in 49 su 60 risultati:
- Desfocatura da Movimento: 32.62 dB su FFHQ vs 29.66 dB di DAPS (+2.96 dB)
- Recupero JPEG: 27.25 dB su FFHQ vs 25.04 dB di ΠGDM (+2.21 dB)
- Quantizzazione: 29.51 dB su FFHQ vs 25.82 dB di ΠGDM (+3.69 dB)
Nella Tabella 2, LMAPS raggiunge il miglior PSNR su tutti i compiti:
- Scattering Inverso Lineare (NR=360): 38.07 dB vs 36.56 dB di RED-diff (+1.51 dB)
- Scattering Inverso Lineare (NR=180): 37.19 dB vs 35.41 dB di RED-diff (+1.78 dB)
- Scattering Inverso Lineare (NR=60): 30.75 dB vs 27.07 dB di RED-diff (+3.68 dB)
La Figura 4 mostra il compromesso tra passi di ottimizzazione e passi di diffusione:
- Le migliori prestazioni sono generalmente osservate con NFE=200-500
- L'aumento dei passi di ottimizzazione per ogni passo di diffusione migliora significativamente le prestazioni
- Rispetto a SITCOM (600 NFE), LMAPS raggiunge prestazioni simili con meno risorse computazionali
La Tabella 3 mostra il tempo di campionamento di LMAPS sul compito di desfocatura:
- LMAPS (200 passi diffusione, 100 passi ottimizzazione): 61 secondi/immagine, 30.88 dB
- DAPS (200 passi diffusione, 100 passi ottimizzazione): 110 secondi/immagine, 29.19 dB
- SITCOM (600 passi): 73 secondi/immagine, 29.93 dB
DPS e le sue varianti risolvono problemi inversi campionando direttamente dalla distribuzione a posteriori p(x0∣y), includendo metodi come TMPD, DDNM, ΠGDM, ecc.
Metodi come Resample, DiffPIR, DCDP, DMPlug risolvono problemi inversi attraverso denoisificazione alternata, ottimizzazione e ricampionamento, con prestazioni superiori ma mancanza di fondamenti teorici.
Lavori recenti iniziano a concentrarsi sulla stima MAP sotto priori di diffusione, ma principalmente limitati a problemi inversi lineari.
- Unificazione Teorica: LMAPS fornisce un'interpretazione probabilistica unificata per i metodi di diffusione basati su ottimizzazione
- Miglioramento delle Prestazioni: Raggiunge miglioramenti PSNR significativi su più compiti, in particolare su compiti non lineari e non differenziabili impegnativi
- Efficienza Computazionale: Dimostra migliore efficienza computazionale rispetto ai metodi esistenti
- Convergenza: La sequenza MAP locale non converge necessariamente al MAP globale
- Diversità: Rispetto a DPS, LMAPS potrebbe produrre minore diversità di output
- Sensibilità agli Iperparametri: Richiede l'adattamento dei parametri k1 e k2 per diversi compiti
L'articolo sottolinea che il ruolo cruciale del MAP globale nell'inferenza bayesiana è stato ampiamente trascurato, e la risoluzione efficiente del MAP globale sotto priori di diffusione rimane una sfida aperta. Sebbene il MAP possa ridurre la diversità di output concentrandosi su una singola modalità, fornisce maggiore determinismo e migliore allineamento con i dati osservati.
- Contributi Teorici Significativi: Fornisce per la prima volta un'interpretazione probabilistica chiara per i metodi di diffusione basati su ottimizzazione
- Esperimenti Completi: Copre 10 compiti di recupero di immagini e 3 problemi inversi scientifici, con configurazione sperimentale completa
- Miglioramenti di Prestazioni Evidenti: Raggiunge miglioramenti significativi di 2dB o superiori su più compiti impegnativi
- Metodo Pratico: Fornisce strategie efficaci per gestire operatori non differenziabili
- Scrittura Chiara: Sia l'analisi teorica che la descrizione del metodo sono ben articolate
- Profondità dell'Analisi Teorica: Sebbene fornisca interpretazioni probabilistiche, l'analisi della convergenza e delle garanzie teoriche è relativamente limitata
- Complessità degli Iperparametri: Richiede l'adattamento di più iperparametri per ogni compito, potenzialmente influenzando la generalizzabilità del metodo
- Costi Computazionali: Sebbene più efficiente di alcuni metodi, richiede ancora molteplici aggiornamenti di gradiente ad ogni passo temporale
- Limitazioni della Valutazione: Si concentra principalmente sulla qualità della ricostruzione, con valutazione insufficiente della quantificazione dell'incertezza
- Valore Accademico: Fornisce una nuova prospettiva teorica per l'applicazione dei modelli di diffusione ai problemi inversi
- Valore Pratico: Ha valore di applicazione diretta nei campi del recupero di immagini e del calcolo scientifico
- Natura Ispirativa: Potrebbe ispirare ulteriori ricerche sulla stima MAP dei modelli di diffusione
- Problemi inversi che richiedono ricostruzioni di alta qualità piuttosto che diversità
- Compiti che coinvolgono operatori forward non differenziabili (come recupero JPEG, quantizzazione)
- Risoluzione di problemi inversi nel calcolo scientifico
- Applicazioni in tempo reale con certi requisiti di efficienza computazionale
L'articolo cita importanti lavori nei campi dei modelli di diffusione, risoluzione di problemi inversi, e inferenza bayesiana, includendo articoli originali di metodi chiave come DPS, DAPS, TMPD, fornendo una solida base bibliografica per la ricerca correlata.