Diffusion Posterior Sampling (DPS) provides a principled Bayesian approach to inverse problems by sampling from $p(x_0 \mid y)$. However, in practice, the goal of inverse problem solving is not to cover the posterior but to recover the most accurate reconstruction, where optimization-based diffusion solvers often excel despite lacking a clear probabilistic foundation. We introduce Local MAP Sampling (LMAPS), a new inference framework that iteratively solving local MAP subproblems along the diffusion trajectory. This perspective clarifies their connection to global MAP estimation and DPS, offering a unified probabilistic interpretation for optimization-based methods. Building on this foundation, we develop practical algorithms with a probabilistically interpretable covariance approximation, a reformulated objective for stability and interpretability, and a gradient approximation for non-differentiable operators. Across a broad set of image restoration and scientific tasks, LMAPS achieves state-of-the-art performance, including $\geq 2$ dB gains on motion deblurring, JPEG restoration, and quantization, and $>1.5$ dB improvements on inverse scattering benchmarks.
- Paper-ID: 2510.07343
- Titel: Local MAP Sampling for Diffusion Models
- Autoren: Shaorong Zhang (UC Riverside), Rob Brekelmans (Vector Institute), Greg Ver Steeg (UC Riverside)
- Klassifizierung: cs.GR cs.AI eess.IV
- Veröffentlichungszeit/Konferenz: Preprint (Zur Überprüfung eingereicht)
- Paper-Link: https://arxiv.org/abs/2510.07343
Diffusion Posterior Sampling (DPS) bietet einen prinzipiellen Bayes'schen Ansatz für inverse Probleme durch Stichprobenentnahme aus p(x0∣y). In der Praxis besteht das Ziel der Lösung inverser Probleme jedoch nicht darin, die posteriore Verteilung abzudecken, sondern die genaueste Rekonstruktion zu erhalten. Optimierungsbasierte Diffusionslöser zeigen in dieser Hinsicht typischerweise überlegene Leistungen, obwohl ihnen eine klare probabilistische Grundlage fehlt. Dieses Papier führt Local MAP Sampling (LMAPS) ein, ein neues Inferenzframework, das iterativ lokale MAP-Teilprobleme entlang der Diffusionsbahn löst. Diese Perspektive klärt die Verbindungen zu globaler MAP-Schätzung und DPS und bietet eine einheitliche probabilistische Interpretation für optimierungsbasierte Methoden. Auf dieser Grundlage entwickeln wir praktische Algorithmen mit probabilistisch interpretierbaren Kovarianzapproximationen, stabilen und interpretierbaren Zielumformulierungen sowie Gradientenapproximationen für nicht-differenzierbare Operatoren.
Diffusionsmodelle bei der Lösung inverser Probleme stehen zwei Hauptherausforderungen gegenüber:
- Zielkonflikt: DPS zielt darauf ab, aus der posterioren Verteilung p(x0∣y) zu sampeln, aber das eigentliche Ziel der Lösung inverser Probleme ist die Erlangung der genauesten Rekonstruktion, nicht die Vielfalt der Stichprobenentnahme
- Fehlende theoretische Grundlage: Optimierungsbasierte Diffusionslöser (wie Resample, DiffPIR, DCDP usw.) zeigen überlegene Leistungen, entbehren aber einer klaren probabilistischen theoretischen Grundlage
- Praktische Ausrichtung: Bewertungsprotokolle für inverse Probleme vergleichen typischerweise mit einer einzelnen Grundwahrheit und bieten keine Belohnungen für Abdeckung oder Vielfalt
- Theoretische Vereinigung: Notwendigkeit, probabilistische Interpretationen für Optimierungsmethoden bereitzustellen und ihre Beziehungen zu MAP-Schätzung und DPS zu klären
- Leistungsverbesserung: Bessere Rekonstruktionsleistung erreichen, während die theoretische Grundlage erhalten bleibt
- Theoretischer Beitrag: Vorschlag des Local MAP Sampling (LMAPS)-Frameworks, das iterativ lokale MAP-Teilprobleme entlang der Diffusionsbahn löst, Analyse der Beziehungen zu globaler MAP und DPS, Vereinigung von TMPD und optimierungsbasierten Methoden für inverse Probleme
- Methodischer Beitrag:
- Bereitstellung probabilistisch interpretierbarer Kovarianzapproximationen als Ersatz für heuristische Wahlen in bestehenden Lösern
- Einführung von Zielumformulierungen zur Erreichung interpretierbarer Parameter und verbesserter Stabilität
- Entwicklung von Gradientenapproximationsstrategien für nicht-differenzierbare Operatoren
- Experimenteller Beitrag: Validierung auf 10 Bildwiederherstellungsaufgaben und 3 wissenschaftlichen inversen Problemen, beste Ergebnisse in 46/60 FFHQ/ImageNet-Fällen, ≥2dB PSNR-Verbesserung bei Bewegungsentunschärfung, JPEG-Wiederherstellung und Quantisierungsaufgaben
Das inverse Problem zielt darauf ab, ein unbekanntes Bild oder Signal x0∈Rn aus einer Priorverteilung π(x0) und einer verrauschten Messung y∈Rm wiederherzustellen:
y=H(x0)+z
wobei H(⋅):Rn→Rm der Vorwärtsoperator ist und z∼N(0,σy2I) das Messerauschen ist.
Globale MAP optimiert direkt die vollständige posteriore Verteilung:
x0MAP:=argmaxx0p(x0∣y)
Lokale MAP löst bei jedem Zeitschritt t ein bedingtes Optimierungsproblem:
x0∗(t,xt,y):=argmaxp(x0∣xt,y)xt−Δt=g(x0∗,xt,ϵ),ϵ∼N(0,I)
- DPS: Verwendet den bedingten Mittelwert E[x0∣xt,y]
- DAPS: Sampelt aus p(x0∣xt,y)
- LMAPS: Verwendet den bedingten Modus argmaxp(x0∣xt,y)
Schlüsseleinsicht: DPS und LMAPS sind nur äquivalent, wenn p(x0∣xt,y) eine Gaußverteilung ist.
Verwendung einer isotropen Approximation:
Σ0∣t≈SNRkI,SNR:=σt2αt2
Umformulierung des ursprünglichen Ziels:
x0∗=argmin{kSNR∥x0−m0∣t∥2+σy21∥y−H(x0)∥2}
in:
x0∗=argmin{(1−μt)21∥x0−m0∣t∥2+μtk2∥y−H(x0)∥2}
wobei μt=σt2+k12σt2∈(0,1), was folgende Eigenschaften erreicht:
- Konvexe Kombinationsinterpretation: Gewichte (1−μt) und μt
- Automatisches Tempering: Mit abnehmendem σt2 Übergang von messungsgesteuert zu priorgesteuert
- Numerische Stabilität: Vermeidung extremer SNR-Skalierungen
Für nicht-differenzierbare Aufgaben wie JPEG-Wiederherstellung und Quantisierung wird ein Proxy-Gradient verwendet:
∇x0∥y−H(x0)∥2≈2JH′(x0)T(H(x0)−y)
Für Quantisierung wird H′(x0)=x0 verwendet, vereinfacht zu:
∇x0∥y−H(x0)∥2≈2(H(x0)−y)
- Bildwiederherstellung: FFHQ 256×256 und ImageNet 256×256, jeweils mit 100 Testbildern
- Wissenschaftliche inverse Probleme: Verwendung des InverseBench-Datensatzes, einschließlich Fluoreszenzmikroskopiebilder (lineare inverse Streuung), GRMHD-Daten (Schwarzloch-Abbildung), fastMRI-Kniegelenkdaten (komprimierte Sensing-MRI)
- Bildwiederherstellung: PSNR, SSIM, LPIPS
- Wissenschaftliche inverse Probleme: Hauptsächlich PSNR, ergänzt durch aufgabenspezifische Metriken
Einschließlich DDNM, DDRM, ΠGDM, DPS, LGD, PnP-DM, FPS, MCG-diff, RedDiff, DAPS, DiffPIR, DCDP, DMPlug und 12 weiterer Methoden
- Diffusionsschritte: Typischerweise 200 Schritte
- Gradientenaktualisierungsschritte: 20-200 Schritte (aufgabenabhängig)
- Lernrate: 0,01-1,0 (aufgabenabhängig)
- Parameter k1: 0-10, k2: 0,01-30000
In Tabelle 1 erreicht LMAPS in 49 von 60 Ergebnissen die beste Leistung:
- Bewegungsentunschärfung: 32,62 dB auf FFHQ vs. 29,66 dB von DAPS (+2,96 dB)
- JPEG-Wiederherstellung: 27,25 dB auf FFHQ vs. 25,04 dB von ΠGDM (+2,21 dB)
- Quantisierung: 29,51 dB auf FFHQ vs. 25,82 dB von ΠGDM (+3,69 dB)
In Tabelle 2 erreicht LMAPS bei allen Aufgaben das beste PSNR:
- Lineare inverse Streuung (NR=360): 38,07 dB vs. 36,56 dB von RED-diff (+1,51 dB)
- Lineare inverse Streuung (NR=180): 37,19 dB vs. 35,41 dB von RED-diff (+1,78 dB)
- Lineare inverse Streuung (NR=60): 30,75 dB vs. 27,07 dB von RED-diff (+3,68 dB)
Abbildung 4 zeigt den Kompromiss zwischen Optimierungsschritten und Diffusionsschritten:
- Beste Leistung wird typischerweise bei NFE=200-500 beobachtet
- Erhöhung der Optimierungsschritte pro Diffusionsschritt führt zu signifikanten Leistungsverbesserungen
- Im Vergleich zu SITCOM (600 NFEs) erreicht LMAPS ähnliche Leistung mit weniger Rechenressourcen
Tabelle 3 zeigt die Stichprobenentnahmezeitdauer von LMAPS bei der Entunschärfungsaufgabe:
- LMAPS (200 Diffusionsschritte, 100 Optimierungsschritte): 61 Sekunden/Bild, 30,88 dB
- DAPS (200 Diffusionsschritte, 100 Optimierungsschritte): 110 Sekunden/Bild, 29,19 dB
- SITCOM (600 Schritte): 73 Sekunden/Bild, 29,93 dB
DPS und seine Varianten lösen inverse Probleme durch direkte Stichprobenentnahme aus der posterioren Verteilung p(x0∣y), einschließlich Methoden wie TMPD, DDNM, ΠGDM usw.
Methoden wie Resample, DiffPIR, DCDP, DMPlug usw. lösen inverse Probleme durch abwechselnde Entrauschung, Optimierung und Neuabtastung mit überlegener Leistung, aber fehlender theoretischer Grundlage.
Neuere Arbeiten beginnen, sich auf MAP-Schätzung unter Diffusionspriors zu konzentrieren, sind aber hauptsächlich auf lineare inverse Probleme beschränkt.
- Theoretische Vereinigung: LMAPS bietet eine einheitliche probabilistische Interpretation für optimierungsbasierte Diffusionsmethoden
- Leistungsverbesserung: Signifikante PSNR-Verbesserungen bei mehreren Aufgaben, besonders bei herausfordernden nichtlinearen und nicht-differenzierbaren Aufgaben
- Rechnerische Effizienz: Bessere rechnerische Effizienz im Vergleich zu bestehenden Methoden
- Konvergenz: Die lokale MAP-Sequenz konvergiert nicht notwendigerweise zur globalen MAP
- Vielfalt: Im Vergleich zu DPS kann LMAPS möglicherweise weniger Ausgabenvielfalt erzeugen
- Hyperparameter-Empfindlichkeit: Erfordert Anpassung der Parameter k1 und k2 für verschiedene Aufgaben
Das Papier weist darauf hin, dass die Schlüsselrolle der globalen MAP in der Bayes'schen Inferenz stark unterschätzt wird und die effiziente Lösung der globalen MAP unter Diffusionspriors weiterhin eine offene Herausforderung darstellt. Obwohl MAP möglicherweise die Ausgabenvielfalt durch Konzentration auf einen einzelnen Modus verringert, bietet es höhere Determiniertheit und bessere Ausrichtung mit Beobachtungsdaten.
- Signifikanter theoretischer Beitrag: Erstmals klare probabilistische Interpretation für optimierungsbasierte Diffusionsmethoden bereitgestellt
- Umfassende Experimente: Abdeckung von 10 Bildwiederherstellungsaufgaben und 3 wissenschaftlichen inversen Problemen mit vollständiger Experimentaleinrichtung
- Offensichtliche Leistungsverbesserung: Signifikante Verbesserungen von über 2dB bei mehreren herausfordernden Aufgaben
- Praktische Methode: Effektive Strategien zur Behandlung nicht-differenzierbarer Operatoren bereitgestellt
- Klare Schreibweise: Theoretische Analyse und Methodenbeschreibung sind gut verständlich
- Begrenzte Tiefe der theoretischen Analyse: Obwohl probabilistische Interpretationen bereitgestellt werden, ist die Analyse von Konvergenz und theoretischen Garantien relativ begrenzt
- Hyperparameter-Komplexität: Erfordert Anpassung mehrerer Hyperparameter für jede Aufgabe, was die Verallgemeinerbarkeit der Methode beeinträchtigen kann
- Rechnerischer Aufwand: Obwohl effizienter als einige Methoden, erfordert immer noch mehrfache Gradientenaktualisierungen bei jedem Zeitschritt
- Bewertungsbeschränkungen: Konzentriert sich hauptsächlich auf Rekonstruktionsqualität, mit unzureichender Bewertung der Unsicherheitsquantifizierung
- Akademischer Wert: Bietet neue theoretische Perspektive für die Anwendung von Diffusionsmodellen bei inversen Problemen
- Praktischer Wert: Hat direkte Anwendungswert in Bildwiederherstellung und wissenschaftlichen Rechenbereichen
- Inspirationswert: Kann mehr Forschung über MAP-Schätzung bei Diffusionsmodellen inspirieren
- Inverse Probleme, die hochwertige Rekonstruktion statt Vielfalt erfordern
- Aufgaben mit nicht-differenzierbaren Vorwärtsoperatoren (wie JPEG-Wiederherstellung, Quantisierung)
- Inverse Problemlösung in wissenschaftlichen Berechnungen
- Echtzeitanwendungen mit bestimmten Anforderungen an Rechnerische Effizienz
Das Papier zitiert wichtige Arbeiten in den Bereichen Diffusionsmodelle, Lösung inverser Probleme und Bayes'sche Inferenz, einschließlich Originalarbeiten zu Schlüsselmethoden wie DPS, DAPS, TMPD usw., und bietet damit eine solide Literaturgrundlage für verwandte Forschung.