Diffusion Posterior Sampling (DPS) provides a principled Bayesian approach to inverse problems by sampling from $p(x_0 \mid y)$. However, in practice, the goal of inverse problem solving is not to cover the posterior but to recover the most accurate reconstruction, where optimization-based diffusion solvers often excel despite lacking a clear probabilistic foundation. We introduce Local MAP Sampling (LMAPS), a new inference framework that iteratively solving local MAP subproblems along the diffusion trajectory. This perspective clarifies their connection to global MAP estimation and DPS, offering a unified probabilistic interpretation for optimization-based methods. Building on this foundation, we develop practical algorithms with a probabilistically interpretable covariance approximation, a reformulated objective for stability and interpretability, and a gradient approximation for non-differentiable operators. Across a broad set of image restoration and scientific tasks, LMAPS achieves state-of-the-art performance, including $\geq 2$ dB gains on motion deblurring, JPEG restoration, and quantization, and $>1.5$ dB improvements on inverse scattering benchmarks.
- ID de l'article: 2510.07343
- Titre: Local MAP Sampling for Diffusion Models
- Auteurs: Shaorong Zhang (UC Riverside), Rob Brekelmans (Vector Institute), Greg Ver Steeg (UC Riverside)
- Classification: cs.GR cs.AI eess.IV
- Date de publication/Conférence: Préimpression (En révision)
- Lien de l'article: https://arxiv.org/abs/2510.07343
L'échantillonnage postérieur par diffusion (DPS) fournit une approche bayésienne rigoureuse pour les problèmes inverses en échantillonnant à partir de p(x0∣y). Cependant, en pratique, l'objectif de la résolution de problèmes inverses n'est pas de couvrir la distribution postérieure, mais de récupérer la reconstruction la plus précise. Les solveurs de diffusion basés sur l'optimisation excellent généralement dans cette tâche, bien qu'ils manquent de fondements probabilistes clairs. Cet article introduit l'échantillonnage MAP local (LMAPS), un nouveau cadre d'inférence qui résout itérativement des sous-problèmes MAP locaux le long de la trajectoire de diffusion. Cette perspective clarifie les connexions avec l'estimation MAP globale et DPS, fournissant une interprétation probabiliste unifiée pour les méthodes basées sur l'optimisation. Sur cette base, nous développons des algorithmes pratiques avec des approximations de covariance probabilistiquement interprétables, des objectifs reformulés pour la stabilité et l'interprétabilité, ainsi que des approximations de gradient pour les opérateurs non différentiables.
Les modèles de diffusion font face à deux défis majeurs dans la résolution de problèmes inverses :
- Inadéquation des objectifs: DPS vise à échantillonner à partir de la distribution postérieure p(x0∣y), mais l'objectif réel de la résolution de problèmes inverses est d'obtenir la meilleure reconstruction, non une diversité d'échantillons
- Absence de fondements théoriques: Les solveurs de diffusion basés sur l'optimisation (tels que Resample, DiffPIR, DCDP, etc.) excellent en performance mais manquent de fondements théoriques probabilistes clairs
- Orientation pratique: Les protocoles d'évaluation des problèmes inverses comparent généralement avec une seule référence de vérité, sans récompenser la couverture ou la diversité
- Unification théorique: Nécessité de fournir une interprétation probabiliste pour les méthodes d'optimisation, clarifiant leurs relations avec l'estimation MAP et DPS
- Amélioration des performances: Réaliser de meilleures performances de reconstruction tout en maintenant les fondements théoriques
- Contribution théorique: Proposition du cadre d'échantillonnage MAP local (LMAPS), résolvant itérativement des sous-problèmes MAP locaux le long de la trajectoire de diffusion, analyse des relations avec MAP global et DPS, unification de TMPD et des méthodes d'optimisation pour les problèmes inverses
- Contribution méthodologique:
- Fourniture d'approximations de covariance probabilistiquement interprétables, remplaçant les choix heuristiques dans les solveurs existants
- Introduction de reformulations d'objectifs pour des paramètres interprétables et une stabilité améliorée
- Développement de stratégies d'approximation de gradient pour les opérateurs non différentiables
- Contribution expérimentale: Validation sur 10 tâches de restauration d'images et 3 problèmes inverses scientifiques, obtenant les meilleurs résultats dans 46/60 cas FFHQ/ImageNet, avec des améliorations PSNR ≥2dB sur le flou de mouvement, la restauration JPEG et les tâches de quantification
Le problème inverse vise à récupérer une image ou un signal inconnu x0∈Rn à partir d'une distribution a priori π(x0) et d'une mesure bruitée y∈Rm :
y=H(x0)+z
où H(⋅):Rn→Rm est l'opérateur direct et z∼N(0,σy2I) est le bruit de mesure.
MAP Global optimise directement la postérieure complète :
x0MAP:=argmaxx0p(x0∣y)
MAP Local résout un problème d'optimisation conditionnelle à chaque pas de temps t :
x0∗(t,xt,y):=argmaxp(x0∣xt,y)xt−Δt=g(x0∗,xt,ϵ),ϵ∼N(0,I)
- DPS: Utilise la moyenne conditionnelle E[x0∣xt,y]
- DAPS: Échantillonne à partir de p(x0∣xt,y)
- LMAPS: Utilise le mode conditionnel argmaxp(x0∣xt,y)
Insight clé : DPS et LMAPS sont équivalents uniquement lorsque p(x0∣xt,y) suit une distribution gaussienne.
Adoption d'une approximation isotrope :
Σ0∣t≈SNRkI,SNR:=σt2αt2
Reformulation de l'objectif original :
x0∗=argmin{kSNR∥x0−m0∣t∥2+σy21∥y−H(x0)∥2}
en :
x0∗=argmin{(1−μt)21∥x0−m0∣t∥2+μtk2∥y−H(x0)∥2}
où μt=σt2+k12σt2∈(0,1), réalisant :
- Interprétation de combinaison convexe: Poids (1−μt) et μt
- Recuit automatique: Transition de l'entraînement par mesure à l'entraînement par a priori à mesure que σt2 diminue
- Stabilité numérique: Évite les mises à l'échelle SNR extrêmes
Pour les tâches non différentiables comme la restauration JPEG et la quantification, utilisation de gradients de substitution :
∇x0∥y−H(x0)∥2≈2JH′(x0)T(H(x0)−y)
Pour la quantification, adoption de H′(x0)=x0, simplifiant en :
∇x0∥y−H(x0)∥2≈2(H(x0)−y)
- Restauration d'images: FFHQ 256×256 et ImageNet 256×256, utilisant chacun 100 images de test
- Problèmes inverses scientifiques: Utilisation de l'ensemble de données InverseBench, incluant des images de microscopie de fluorescence (diffusion inverse linéaire), données GRMHD (imagerie de trou noir), données fastMRI du genou (IRM par détection comprimée)
- Restauration d'images: PSNR, SSIM, LPIPS
- Problèmes inverses scientifiques: Principalement PSNR, complétés par des métriques spécifiques aux tâches
Incluant DDNM, DDRM, ΠGDM, DPS, LGD, PnP-DM, FPS, MCG-diff, RedDiff, DAPS, DiffPIR, DCDP, DMPlug et 12 autres méthodes
- Pas de diffusion: Généralement 200 pas
- Pas de mise à jour de gradient: 20-200 pas (dépendant de la tâche)
- Taux d'apprentissage: 0,01-1,0 (dépendant de la tâche)
- Paramètres k1: 0-10, k2: 0,01-30000
Dans le tableau 1, LMAPS obtient les meilleures performances dans 49 résultats sur 60 :
- Défloutage de mouvement: 32,62 dB sur FFHQ vs 29,66 dB pour DAPS (+2,96 dB)
- Restauration JPEG: 27,25 dB sur FFHQ vs 25,04 dB pour ΠGDM (+2,21 dB)
- Quantification: 29,51 dB sur FFHQ vs 25,82 dB pour ΠGDM (+3,69 dB)
Dans le tableau 2, LMAPS obtient le meilleur PSNR sur toutes les tâches :
- Diffusion inverse linéaire (NR=360): 38,07 dB vs 36,56 dB pour RED-diff (+1,51 dB)
- Diffusion inverse linéaire (NR=180): 37,19 dB vs 35,41 dB pour RED-diff (+1,78 dB)
- Diffusion inverse linéaire (NR=60): 30,75 dB vs 27,07 dB pour RED-diff (+3,68 dB)
La figure 4 montre le compromis entre le nombre d'étapes d'optimisation et le nombre d'étapes de diffusion :
- Les meilleures performances sont généralement observées pour NFE=200-500
- L'augmentation du nombre d'étapes d'optimisation par pas de diffusion améliore significativement les performances
- Par rapport à SITCOM (600 NFEs), LMAPS atteint des performances similaires avec moins de ressources de calcul
Le tableau 3 montre le temps d'échantillonnage de LMAPS sur la tâche de défloutage :
- LMAPS (200 pas de diffusion, 100 pas d'optimisation): 61 secondes/image, 30,88 dB
- DAPS (200 pas de diffusion, 100 pas d'optimisation): 110 secondes/image, 29,19 dB
- SITCOM (600 pas): 73 secondes/image, 29,93 dB
DPS et ses variantes résolvent les problèmes inverses en échantillonnant directement à partir de la distribution postérieure p(x0∣y), incluant les méthodes TMPD, DDNM, ΠGDM, etc.
Les méthodes Resample, DiffPIR, DCDP, DMPlug, etc. résolvent les problèmes inverses par débruitage, optimisation et rééchantillonnage alternés, avec d'excellentes performances mais manquant de fondements théoriques.
Les travaux récents commencent à se concentrer sur l'estimation MAP sous les a priori de diffusion, mais sont principalement limités aux problèmes inverses linéaires.
- Unification théorique: LMAPS fournit une interprétation probabiliste unifiée pour les méthodes de diffusion basées sur l'optimisation
- Amélioration des performances: Obtient des améliorations PSNR significatives sur plusieurs tâches, particulièrement sur les tâches non linéaires et non différentiables difficiles
- Efficacité computationnelle: Meilleure efficacité computationnelle par rapport aux méthodes existantes
- Convergence: La séquence MAP locale ne converge pas nécessairement vers le MAP global
- Diversité: Par rapport à DPS, LMAPS peut produire moins de diversité de sortie
- Sensibilité aux hyperparamètres: Nécessite l'ajustement des paramètres k1 et k2 pour différentes tâches
L'article souligne que le rôle clé du MAP global en inférence bayésienne est largement négligé, et la résolution efficace du MAP global sous les a priori de diffusion reste un défi ouvert. Bien que le MAP puisse réduire la diversité de sortie en se concentrant sur un seul mode, il offre une plus grande certitude et un meilleur alignement avec les données observées.
- Contribution théorique significative: Première fourniture d'une interprétation probabiliste claire pour les méthodes de diffusion basées sur l'optimisation
- Expériences complètes: Couvre 10 tâches de restauration d'images et 3 problèmes inverses scientifiques, avec une configuration expérimentale complète
- Améliorations de performance évidentes: Obtient des améliorations significatives de plus de 2dB sur plusieurs tâches difficiles
- Méthode pratique: Fournit des stratégies efficaces pour traiter les opérateurs non différentiables
- Rédaction claire: L'analyse théorique et la description des méthodes sont claires
- Profondeur de l'analyse théorique: Bien que fournissant une interprétation probabiliste, l'analyse de la convergence et des garanties théoriques est relativement limitée
- Complexité des hyperparamètres: Nécessite l'ajustement de plusieurs hyperparamètres pour chaque tâche, pouvant affecter la généralisation de la méthode
- Surcharge computationnelle: Bien que plus efficace que certaines méthodes, nécessite toujours plusieurs mises à jour de gradient à chaque pas de temps
- Limitations d'évaluation: Se concentre principalement sur la qualité de reconstruction, avec une évaluation insuffisante de la quantification de l'incertitude
- Valeur académique: Fournit une nouvelle perspective théorique pour l'application des modèles de diffusion aux problèmes inverses
- Valeur pratique: Possède une valeur d'application directe dans les domaines de la restauration d'images et du calcul scientifique
- Nature inspirante: Peut inspirer davantage de recherches sur l'estimation MAP des modèles de diffusion
- Problèmes inverses nécessitant une reconstruction de haute qualité plutôt que de la diversité
- Tâches impliquant des opérateurs directs non différentiables (comme la restauration JPEG, la quantification)
- Résolution de problèmes inverses en calcul scientifique
- Applications en temps réel avec certaines exigences d'efficacité computationnelle
L'article cite des travaux importants dans les domaines des modèles de diffusion, de la résolution de problèmes inverses et de l'inférence bayésienne, incluant les articles originaux des méthodes clés telles que DPS, DAPS, TMPD, fournissant une bonne base bibliographique pour la recherche connexe.