2025-11-18T05:16:13.529071

Local MAP Sampling for Diffusion Models

Zhang, Brekelmans, Steeg

Diffusion Posterior Sampling (DPS) provides a principled Bayesian approach to inverse problems by sampling from $p(x_0 \mid y)$. However, in practice, the goal of inverse problem solving is not to cover the posterior but to recover the most accurate reconstruction, where optimization-based diffusion solvers often excel despite lacking a clear probabilistic foundation. We introduce Local MAP Sampling (LMAPS), a new inference framework that iteratively solving local MAP subproblems along the diffusion trajectory. This perspective clarifies their connection to global MAP estimation and DPS, offering a unified probabilistic interpretation for optimization-based methods. Building on this foundation, we develop practical algorithms with a probabilistically interpretable covariance approximation, a reformulated objective for stability and interpretability, and a gradient approximation for non-differentiable operators. Across a broad set of image restoration and scientific tasks, LMAPS achieves state-of-the-art performance, including $\geq 2$ dB gains on motion deblurring, JPEG restoration, and quantization, and $>1.5$ dB improvements on inverse scattering benchmarks.

academic

Local MAP Sampling per Modelli di Diffusione

Informazioni Fondamentali

ID Articolo: 2510.07343
Titolo: Local MAP Sampling for Diffusion Models
Autori: Shaorong Zhang (UC Riverside), Rob Brekelmans (Vector Institute), Greg Ver Steeg (UC Riverside)
Classificazione: cs.GR cs.AI eess.IV
Data di Pubblicazione/Conferenza: Preprint (In revisione)
Link Articolo: https://arxiv.org/abs/2510.07343

Riassunto

Il Diffusion Posterior Sampling (DPS) fornisce un approccio bayesiano principiato per i problemi inversi campionando da $p(x_0 \mid y)$ . Tuttavia, nella pratica, l'obiettivo della risoluzione di problemi inversi non è coprire la distribuzione a posteriori, bensì recuperare la ricostruzione più accurata; i risolutori di diffusione basati su ottimizzazione generalmente eccellono in questo, sebbene manchino di una base probabilistica chiara. Questo articolo introduce Local MAP Sampling (LMAPS), un nuovo framework di inferenza che risolve iterativamente sottoproblemi MAP locali lungo la traiettoria di diffusione. Questa prospettiva chiarisce i loro collegamenti con la stima MAP globale e DPS, fornendo un'interpretazione probabilistica unificata per i metodi basati su ottimizzazione. Su questa base, sviluppiamo algoritmi pratici con approssimazioni di covarianza probabilisticamente interpretabili, obiettivi riformulati per stabilità e interpretabilità, e approssimazioni di gradiente per operatori non differenziabili.

Contesto di Ricerca e Motivazione

Contesto del Problema

I modelli di diffusione affrontano due sfide principali nella risoluzione di problemi inversi:

Disallineamento degli Obiettivi: DPS mira a campionare dalla distribuzione a posteriori $p(x_0|y)$ , ma l'obiettivo pratico della risoluzione di problemi inversi è ottenere la ricostruzione più accurata, non il campionamento diversificato
Mancanza di Fondamenti Teorici: I risolutori di diffusione basati su ottimizzazione (come Resample, DiffPIR, DCDP, ecc.) mostrano eccellenti prestazioni, ma mancano di una base teorica probabilistica chiara

Motivazione della Ricerca

Orientamento Pratico: I protocolli di valutazione dei problemi inversi generalmente confrontano con un singolo riferimento di verità, non fornendo ricompense per la copertura o la diversità
Unificazione Teorica: Necessità di fornire interpretazioni probabilistiche per i metodi di ottimizzazione, chiarendo le loro relazioni con la stima MAP e DPS
Miglioramento delle Prestazioni: Realizzare migliori prestazioni di ricostruzione mantenendo fondamenti teorici

Contributi Principali

Contributi Teorici: Propone il framework Local MAP Sampling (LMAPS), che risolve iterativamente sottoproblemi MAP locali lungo la traiettoria di diffusione, analizza le relazioni con MAP globale e DPS, unificando TMPD e metodi basati su ottimizzazione per problemi inversi
Contributi Metodologici:
- Fornisce approssimazioni di covarianza probabilisticamente interpretabili, sostituendo le scelte euristiche nei risolutori esistenti
- Introduce riformulazione degli obiettivi per parametri interpretabili e stabilità migliorata
- Sviluppa strategie di approssimazione del gradiente per operatori non differenziabili
Contributi Sperimentali: Verifica su 10 compiti di recupero di immagini e 3 problemi inversi scientifici, raggiungendo i migliori risultati in 46/60 casi FFHQ/ImageNet, ottenendo miglioramenti PSNR ≥2dB su desfocatura da movimento, recupero JPEG e compiti di quantizzazione

Dettagli del Metodo

Definizione del Compito

Il problema inverso mira a recuperare un'immagine o un segnale sconosciuto $x_0 \in \mathbb{R}^n$ da una distribuzione a priori $\pi(x_0)$ e da una misurazione rumorosa $y \in \mathbb{R}^m$ : $y = H(x_0) + z$ dove $H(\cdot): \mathbb{R}^n \to \mathbb{R}^m$ è l'operatore forward e $z \sim \mathcal{N}(0, \sigma_y^2 I)$ è il rumore di misurazione.

Framework Teorico Principale

MAP Globale vs MAP Locale

MAP Globale ottimizza direttamente la posteriore completa: $x_0^{\text{MAP}} := \arg\max_{x_0} p(x_0|y)$

MAP Locale risolve un problema di ottimizzazione condizionata ad ogni passo temporale $t$ : $x_0^*(t, x_t, y) := \arg\max p(x_0|x_t, y)$ $x_{t-\Delta t} = g(x_0^*, x_t, \epsilon), \quad \epsilon \sim \mathcal{N}(0,I)$

Relazioni con DPS e DAPS

DPS: Utilizza la media condizionata $E[x_0|x_t, y]$
DAPS: Campiona da $p(x_0|x_t, y)$
LMAPS: Utilizza la moda condizionata $\arg\max p(x_0|x_t, y)$

Intuizione Chiave: DPS e LMAPS sono equivalenti solo quando $p(x_0|x_t, y)$ è una distribuzione gaussiana.

Progettazione dell'Algoritmo Pratico

Approssimazione della Covarianza

Adotta un'approssimazione isotropica: $\Sigma_{0|t} \approx \frac{k}{\text{SNR}} I, \quad \text{SNR} := \frac{\alpha_t^2}{\sigma_t^2}$

Riformulazione della Funzione Obiettivo

Riformula l'obiettivo originale: $x_0^* = \arg\min \left\{\frac{\text{SNR}}{k}\|x_0 - m_{0|t}\|^2 + \frac{1}{\sigma_y^2}\|y - H(x_0)\|^2\right\}$

come: $x_0^* = \arg\min \left\{(1-\mu_t)\frac{1}{2}\|x_0 - m_{0|t}\|^2 + \mu_t k_2\|y - H(x_0)\|^2\right\}$

dove $\mu_t = \frac{\sigma_t^2}{\sigma_t^2 + k_1^2} \in (0,1)$ , realizzando:

Interpretazione di Combinazione Convessa: Pesi $(1-\mu_t)$ e $\mu_t$
Annealing Automatico: Con la diminuzione di $\sigma_t^2$ , transizione da guidato dalle misurazioni a guidato dal priore
Stabilità Numerica: Evita scalature SNR estreme

Gestione di Operatori Non Differenziabili

Per compiti non differenziabili come recupero JPEG e quantizzazione, utilizza gradienti proxy: $\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2J_{H'}(x_0)^T(H(x_0) - y)$

Per la quantizzazione, adotta $H'(x_0) = x_0$ , semplificando a: $\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2(H(x_0) - y)$

Configurazione Sperimentale

Dataset

Recupero di Immagini: FFHQ 256×256 e ImageNet 256×256, utilizzando 100 immagini di test ciascuno
Problemi Inversi Scientifici: Utilizza il dataset InverseBench, includendo immagini di microscopia a fluorescenza (scattering inverso lineare), dati GRMHD (imaging di buchi neri), dati fastMRI del ginocchio (MRI con campionamento compresso)

Metriche di Valutazione

Recupero di Immagini: PSNR, SSIM, LPIPS
Problemi Inversi Scientifici: Principalmente PSNR, integrato con metriche specifiche del compito

Metodi di Confronto

Include DDNM, DDRM, ΠGDM, DPS, LGD, PnP-DM, FPS, MCG-diff, RedDiff, DAPS, DiffPIR, DCDP, DMPlug e altri 12 metodi

Dettagli di Implementazione

Passi di diffusione: Tipicamente 200 passi
Passi di aggiornamento del gradiente: 20-200 passi (dipendenti dal compito)
Tasso di apprendimento: 0.01-1.0 (correlato al compito)
Parametri $k_1$ : 0-10, $k_2$ : 0.01-30000

Risultati Sperimentali

Risultati Principali

Compiti di Recupero di Immagini

Nella Tabella 1, LMAPS raggiunge le migliori prestazioni in 49 su 60 risultati:

Desfocatura da Movimento: 32.62 dB su FFHQ vs 29.66 dB di DAPS (+2.96 dB)
Recupero JPEG: 27.25 dB su FFHQ vs 25.04 dB di ΠGDM (+2.21 dB)
Quantizzazione: 29.51 dB su FFHQ vs 25.82 dB di ΠGDM (+3.69 dB)

Problemi Inversi Scientifici

Nella Tabella 2, LMAPS raggiunge il miglior PSNR su tutti i compiti:

Scattering Inverso Lineare (NR=360): 38.07 dB vs 36.56 dB di RED-diff (+1.51 dB)
Scattering Inverso Lineare (NR=180): 37.19 dB vs 35.41 dB di RED-diff (+1.78 dB)
Scattering Inverso Lineare (NR=60): 30.75 dB vs 27.07 dB di RED-diff (+3.68 dB)

Esperimenti di Ablazione

La Figura 4 mostra il compromesso tra passi di ottimizzazione e passi di diffusione:

Le migliori prestazioni sono generalmente osservate con NFE=200-500
L'aumento dei passi di ottimizzazione per ogni passo di diffusione migliora significativamente le prestazioni
Rispetto a SITCOM (600 NFE), LMAPS raggiunge prestazioni simili con meno risorse computazionali

Efficienza Computazionale

La Tabella 3 mostra il tempo di campionamento di LMAPS sul compito di desfocatura:

LMAPS (200 passi diffusione, 100 passi ottimizzazione): 61 secondi/immagine, 30.88 dB
DAPS (200 passi diffusione, 100 passi ottimizzazione): 110 secondi/immagine, 29.19 dB
SITCOM (600 passi): 73 secondi/immagine, 29.93 dB

Lavori Correlati

Campionamento Posteriore di Diffusione

DPS e le sue varianti risolvono problemi inversi campionando direttamente dalla distribuzione a posteriori $p(x_0|y)$ , includendo metodi come TMPD, DDNM, ΠGDM, ecc.

Metodi Basati su Ottimizzazione

Metodi come Resample, DiffPIR, DCDP, DMPlug risolvono problemi inversi attraverso denoisificazione alternata, ottimizzazione e ricampionamento, con prestazioni superiori ma mancanza di fondamenti teorici.

Metodi di Stima MAP

Lavori recenti iniziano a concentrarsi sulla stima MAP sotto priori di diffusione, ma principalmente limitati a problemi inversi lineari.

Conclusioni e Discussione

Conclusioni Principali

Unificazione Teorica: LMAPS fornisce un'interpretazione probabilistica unificata per i metodi di diffusione basati su ottimizzazione
Miglioramento delle Prestazioni: Raggiunge miglioramenti PSNR significativi su più compiti, in particolare su compiti non lineari e non differenziabili impegnativi
Efficienza Computazionale: Dimostra migliore efficienza computazionale rispetto ai metodi esistenti

Limitazioni

Convergenza: La sequenza MAP locale non converge necessariamente al MAP globale
Diversità: Rispetto a DPS, LMAPS potrebbe produrre minore diversità di output
Sensibilità agli Iperparametri: Richiede l'adattamento dei parametri $k_1$ e $k_2$ per diversi compiti

Direzioni Future

L'articolo sottolinea che il ruolo cruciale del MAP globale nell'inferenza bayesiana è stato ampiamente trascurato, e la risoluzione efficiente del MAP globale sotto priori di diffusione rimane una sfida aperta. Sebbene il MAP possa ridurre la diversità di output concentrandosi su una singola modalità, fornisce maggiore determinismo e migliore allineamento con i dati osservati.

Valutazione Approfondita

Punti di Forza

Contributi Teorici Significativi: Fornisce per la prima volta un'interpretazione probabilistica chiara per i metodi di diffusione basati su ottimizzazione
Esperimenti Completi: Copre 10 compiti di recupero di immagini e 3 problemi inversi scientifici, con configurazione sperimentale completa
Miglioramenti di Prestazioni Evidenti: Raggiunge miglioramenti significativi di 2dB o superiori su più compiti impegnativi
Metodo Pratico: Fornisce strategie efficaci per gestire operatori non differenziabili
Scrittura Chiara: Sia l'analisi teorica che la descrizione del metodo sono ben articolate

Insufficienze

Profondità dell'Analisi Teorica: Sebbene fornisca interpretazioni probabilistiche, l'analisi della convergenza e delle garanzie teoriche è relativamente limitata
Complessità degli Iperparametri: Richiede l'adattamento di più iperparametri per ogni compito, potenzialmente influenzando la generalizzabilità del metodo
Costi Computazionali: Sebbene più efficiente di alcuni metodi, richiede ancora molteplici aggiornamenti di gradiente ad ogni passo temporale
Limitazioni della Valutazione: Si concentra principalmente sulla qualità della ricostruzione, con valutazione insufficiente della quantificazione dell'incertezza

Impatto

Valore Accademico: Fornisce una nuova prospettiva teorica per l'applicazione dei modelli di diffusione ai problemi inversi
Valore Pratico: Ha valore di applicazione diretta nei campi del recupero di immagini e del calcolo scientifico
Natura Ispirativa: Potrebbe ispirare ulteriori ricerche sulla stima MAP dei modelli di diffusione

Scenari Applicabili

Problemi inversi che richiedono ricostruzioni di alta qualità piuttosto che diversità
Compiti che coinvolgono operatori forward non differenziabili (come recupero JPEG, quantizzazione)
Risoluzione di problemi inversi nel calcolo scientifico
Applicazioni in tempo reale con certi requisiti di efficienza computazionale

Riferimenti Bibliografici

L'articolo cita importanti lavori nei campi dei modelli di diffusione, risoluzione di problemi inversi, e inferenza bayesiana, includendo articoli originali di metodi chiave come DPS, DAPS, TMPD, fornendo una solida base bibliografica per la ricerca correlata.