2025-11-18T05:16:13.529071

Local MAP Sampling for Diffusion Models

Zhang, Brekelmans, Steeg
Diffusion Posterior Sampling (DPS) provides a principled Bayesian approach to inverse problems by sampling from $p(x_0 \mid y)$. However, in practice, the goal of inverse problem solving is not to cover the posterior but to recover the most accurate reconstruction, where optimization-based diffusion solvers often excel despite lacking a clear probabilistic foundation. We introduce Local MAP Sampling (LMAPS), a new inference framework that iteratively solving local MAP subproblems along the diffusion trajectory. This perspective clarifies their connection to global MAP estimation and DPS, offering a unified probabilistic interpretation for optimization-based methods. Building on this foundation, we develop practical algorithms with a probabilistically interpretable covariance approximation, a reformulated objective for stability and interpretability, and a gradient approximation for non-differentiable operators. Across a broad set of image restoration and scientific tasks, LMAPS achieves state-of-the-art performance, including $\geq 2$ dB gains on motion deblurring, JPEG restoration, and quantization, and $>1.5$ dB improvements on inverse scattering benchmarks.
academic

विसरण मॉडल के लिए स्थानीय MAP नमूनाकरण

मूल जानकारी

  • पेपर ID: 2510.07343
  • शीर्षक: विसरण मॉडल के लिए स्थानीय MAP नमूनाकरण
  • लेखक: Shaorong Zhang (UC Riverside), Rob Brekelmans (Vector Institute), Greg Ver Steeg (UC Riverside)
  • वर्गीकरण: cs.GR cs.AI eess.IV
  • प्रकाशन समय/सम्मेलन: प्रीप्रिंट (समीक्षा के अधीन)
  • पेपर लिंक: https://arxiv.org/abs/2510.07343

सारांश

विसरण पश्च नमूनाकरण (DPS) p(x0y)p(x_0 \mid y) से नमूनाकरण के माध्यम से व्युत्क्रम समस्याओं के लिए एक सिद्धांतबद्ध बेयसियन दृष्टिकोण प्रदान करता है। हालांकि, व्यावहारिक रूप से, व्युत्क्रम समस्या समाधान का लक्ष्य पश्च वितरण को कवर करना नहीं है, बल्कि सबसे सटीक पुनर्निर्माण परिणाम प्राप्त करना है। अनुकूलन-आधारित विसरण समाधानकर्ता आमतौर पर इस संबंध में उत्कृष्ट प्रदर्शन करते हैं, हालांकि स्पष्ट संभाव्य आधार की कमी है। यह पेपर स्थानीय MAP नमूनाकरण (LMAPS) प्रस्तुत करता है, जो विसरण प्रक्षेपवक्र के साथ स्थानीय MAP उप-समस्याओं को पुनरावृत्तिपूर्वक हल करने के लिए एक नई अनुमान रूपरेखा है। यह दृष्टिकोण वैश्विक MAP अनुमान और DPS के साथ उनके संबंध को स्पष्ट करता है, अनुकूलन-आधारित विधियों के लिए एक एकीकृत संभाव्य व्याख्या प्रदान करता है। इस आधार पर, हम संभाव्य व्याख्यायोग्य सहप्रसरण सन्निकटन, स्थिरता और व्याख्यायोग्यता के साथ पुनर्निर्मित उद्देश्य, और गैर-अवकलनीय संचालकों के लिए ढाल सन्निकटन वाले व्यावहारिक एल्गोरिदम विकसित करते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

विसरण मॉडल व्युत्क्रम समस्या समाधान में दो मुख्य चुनौतियों का सामना करते हैं:

  1. लक्ष्य असमानता: DPS पश्च वितरण p(x0y)p(x_0|y) से नमूनाकरण का लक्ष्य रखता है, लेकिन व्युत्क्रम समस्या समाधान का वास्तविक लक्ष्य सबसे सटीक पुनर्निर्माण प्राप्त करना है, विविधता नमूनाकरण नहीं
  2. सैद्धांतिक आधार की कमी: अनुकूलन-आधारित विसरण समाधानकर्ता (जैसे Resample, DiffPIR, DCDP आदि) प्रदर्शन में उत्कृष्ट हैं, लेकिन स्पष्ट संभाव्य सिद्धांत आधार की कमी है

अनुसंधान प्रेरणा

  • व्यावहारिकता-केंद्रित: व्युत्क्रम समस्या मूल्यांकन प्रोटोकॉल आमतौर पर एकल सत्य संदर्भ के साथ तुलना करते हैं, कवरेज या विविधता के लिए पुरस्कार प्रदान नहीं करते
  • सैद्धांतिक एकीकरण: अनुकूलन विधियों के लिए संभाव्य व्याख्या प्रदान करने की आवश्यकता है, MAP अनुमान और DPS के साथ उनके संबंध को स्पष्ट करना
  • प्रदर्शन वृद्धि: सैद्धांतिक आधार बनाए रखते हुए बेहतर पुनर्निर्माण प्रदर्शन प्राप्त करना

मुख्य योगदान

  1. सैद्धांतिक योगदान: स्थानीय MAP नमूनाकरण (LMAPS) रूपरेखा प्रस्तावित करता है, विसरण प्रक्षेपवक्र के साथ स्थानीय MAP उप-समस्याओं को पुनरावृत्तिपूर्वक हल करता है, वैश्विक MAP और DPS के साथ संबंध का विश्लेषण करता है, TMPD और अनुकूलन-आधारित व्युत्क्रम समस्या विधियों को एकीकृत करता है
  2. विधि योगदान:
    • संभाव्य व्याख्यायोग्य सहप्रसरण सन्निकटन प्रदान करता है, मौजूदा समाधानकर्ताओं में अनुमानी विकल्पों को प्रतिस्थापित करता है
    • व्याख्यायोग्य पैरामीटर और बेहतर स्थिरता के लिए उद्देश्य पुनर्निर्माण प्रस्तुत करता है
    • गैर-अवकलनीय संचालकों के लिए ढाल सन्निकटन रणनीति विकसित करता है
  3. प्रायोगिक योगदान: 10 छवि पुनर्प्राप्ति कार्यों और 3 वैज्ञानिक व्युत्क्रम समस्याओं पर सत्यापन, 46/60 FFHQ/ImageNet मामलों में सर्वोत्तम परिणाम, गति विकृति, JPEG पुनर्प्राप्ति और परिमाणीकरण कार्यों पर ≥2dB PSNR वृद्धि

विधि विस्तार

कार्य परिभाषा

व्युत्क्रम समस्या का लक्ष्य पूर्व वितरण π(x0)\pi(x_0) और शोर माप yRmy \in \mathbb{R}^m से अज्ञात छवि या संकेत x0Rnx_0 \in \mathbb{R}^n को पुनर्प्राप्त करना है: y=H(x0)+zy = H(x_0) + z जहां H():RnRmH(\cdot): \mathbb{R}^n \to \mathbb{R}^m अग्रगामी संचालक है, zN(0,σy2I)z \sim \mathcal{N}(0, \sigma_y^2 I) माप शोर है।

मुख्य सैद्धांतिक रूपरेखा

वैश्विक MAP बनाम स्थानीय MAP

वैश्विक MAP पूर्ण पश्च को सीधे अनुकूलित करता है: x0MAP:=argmaxx0p(x0y)x_0^{\text{MAP}} := \arg\max_{x_0} p(x_0|y)

स्थानीय MAP प्रत्येक समय चरण tt पर सशर्त अनुकूलन समस्या को हल करता है: x0(t,xt,y):=argmaxp(x0xt,y)x_0^*(t, x_t, y) := \arg\max p(x_0|x_t, y)xtΔt=g(x0,xt,ϵ),ϵN(0,I)x_{t-\Delta t} = g(x_0^*, x_t, \epsilon), \quad \epsilon \sim \mathcal{N}(0,I)

DPS और DAPS के साथ संबंध

  • DPS: सशर्त माध्य E[x0xt,y]E[x_0|x_t, y] का उपयोग करता है
  • DAPS: p(x0xt,y)p(x_0|x_t, y) से नमूनाकरण करता है
  • LMAPS: सशर्त मोड argmaxp(x0xt,y)\arg\max p(x_0|x_t, y) का उपयोग करता है

मुख्य अंतर्दृष्टि: DPS और LMAPS केवल तभी समतुल्य हैं जब p(x0xt,y)p(x_0|x_t, y) गाऊसी वितरण हो।

व्यावहारिक एल्गोरिदम डिजाइन

सहप्रसरण सन्निकटन

समदिशीय सन्निकटन अपनाता है: Σ0tkSNRI,SNR:=αt2σt2\Sigma_{0|t} \approx \frac{k}{\text{SNR}} I, \quad \text{SNR} := \frac{\alpha_t^2}{\sigma_t^2}

उद्देश्य फलन पुनर्निर्माण

मूल उद्देश्य: x0=argmin{SNRkx0m0t2+1σy2yH(x0)2}x_0^* = \arg\min \left\{\frac{\text{SNR}}{k}\|x_0 - m_{0|t}\|^2 + \frac{1}{\sigma_y^2}\|y - H(x_0)\|^2\right\}

को पुनर्निर्मित करता है: x0=argmin{(1μt)12x0m0t2+μtk2yH(x0)2}x_0^* = \arg\min \left\{(1-\mu_t)\frac{1}{2}\|x_0 - m_{0|t}\|^2 + \mu_t k_2\|y - H(x_0)\|^2\right\}

जहां μt=σt2σt2+k12(0,1)\mu_t = \frac{\sigma_t^2}{\sigma_t^2 + k_1^2} \in (0,1), निम्नलिखित को प्राप्त करता है:

  • उत्तल संयोजन व्याख्या: भार (1μt)(1-\mu_t) और μt\mu_t
  • स्वचालित शमन: जैसे-जैसे σt2\sigma_t^2 घटता है, माप-संचालित से पूर्व-संचालित में परिवर्तन
  • संख्यात्मक स्थिरता: चरम SNR स्केलिंग से बचना

गैर-अवकलनीय संचालक प्रबंधन

JPEG पुनर्प्राप्ति, परिमाणीकरण आदि गैर-अवकलनीय कार्यों के लिए, प्रॉक्सी ढाल का उपयोग करता है: x0yH(x0)22JH(x0)T(H(x0)y)\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2J_{H'}(x_0)^T(H(x_0) - y)

परिमाणीकरण के लिए, H(x0)=x0H'(x_0) = x_0 अपनाता है, सरलीकृत करता है: x0yH(x0)22(H(x0)y)\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2(H(x_0) - y)

प्रायोगिक सेटअप

डेटासेट

  • छवि पुनर्प्राप्ति: FFHQ 256×256 और ImageNet 256×256, प्रत्येक 100 परीक्षण छवियों का उपयोग करते हुए
  • वैज्ञानिक व्युत्क्रम समस्याएं: InverseBench डेटासेट अपनाता है, जिसमें प्रतिदीप्ति सूक्ष्मदर्शी छवियां (रैखिक व्युत्क्रम बिखराव), GRMHD डेटा (ब्लैक होल इमेजिंग), fastMRI घुटने डेटा (संपीड़ित संवेदना MRI) शामिल हैं

मूल्यांकन मेट्रिक्स

  • छवि पुनर्प्राप्ति: PSNR, SSIM, LPIPS
  • वैज्ञानिक व्युत्क्रम समस्याएं: मुख्य रूप से PSNR, कार्य-विशिष्ट मेट्रिक्स के साथ

तुलना विधियां

DDNM, DDRM, ΠGDM, DPS, LGD, PnP-DM, FPS, MCG-diff, RedDiff, DAPS, DiffPIR, DCDP, DMPlug आदि 12 विधियां शामिल हैं

कार्यान्वयन विवरण

  • विसरण चरण: आमतौर पर 200 चरण
  • ढाल अद्यतन चरण: 20-200 चरण (कार्य पर निर्भर)
  • सीखने की दर: 0.01-1.0 (कार्य संबंधित)
  • पैरामीटर k1k_1: 0-10, k2k_2: 0.01-30000

प्रायोगिक परिणाम

मुख्य परिणाम

छवि पुनर्प्राप्ति कार्य

तालिका 1 में, LMAPS 60 परिणामों में 49 में सर्वोत्तम प्रदर्शन प्राप्त करता है:

  • गति विकृति: FFHQ पर 32.62 dB बनाम DAPS का 29.66 dB (+2.96 dB)
  • JPEG पुनर्प्राप्ति: FFHQ पर 27.25 dB बनाम ΠGDM का 25.04 dB (+2.21 dB)
  • परिमाणीकरण: FFHQ पर 29.51 dB बनाम ΠGDM का 25.82 dB (+3.69 dB)

वैज्ञानिक व्युत्क्रम समस्याएं

तालिका 2 में, LMAPS सभी कार्यों पर सर्वोत्तम PSNR प्राप्त करता है:

  • रैखिक व्युत्क्रम बिखराव (NR=360): 38.07 dB बनाम RED-diff का 36.56 dB (+1.51 dB)
  • रैखिक व्युत्क्रम बिखराव (NR=180): 37.19 dB बनाम RED-diff का 35.41 dB (+1.78 dB)
  • रैखिक व्युत्क्रम बिखराव (NR=60): 30.75 dB बनाम RED-diff का 27.07 dB (+3.68 dB)

विलोपन प्रयोग

चित्र 4 अनुकूलन चरणों बनाम विसरण चरणों का व्यापार दिखाता है:

  • सर्वोत्तम प्रदर्शन आमतौर पर NFE=200-500 पर देखा जाता है
  • प्रत्येक विसरण चरण के अनुकूलन चरणों को बढ़ाने से प्रदर्शन में महत्वपूर्ण सुधार होता है
  • SITCOM (600 NFEs) की तुलना में, LMAPS कम कम्प्यूटेशनल संसाधनों के साथ समान प्रदर्शन प्राप्त करता है

कम्प्यूटेशनल दक्षता

तालिका 3 विकृति कार्य पर LMAPS के नमूनाकरण समय को दिखाता है:

  • LMAPS (200 विसरण चरण, 100 अनुकूलन चरण): 61 सेकंड/छवि, 30.88 dB
  • DAPS (200 विसरण चरण, 100 अनुकूलन चरण): 110 सेकंड/छवि, 29.19 dB
  • SITCOM (600 चरण): 73 सेकंड/छवि, 29.93 dB

संबंधित कार्य

विसरण पश्च नमूनाकरण

DPS और इसके वेरिएंट पश्च वितरण p(x0y)p(x_0|y) से सीधे नमूनाकरण के माध्यम से व्युत्क्रम समस्याओं को हल करते हैं, जिसमें TMPD, DDNM, ΠGDM आदि विधियां शामिल हैं।

अनुकूलन-आधारित विधियां

Resample, DiffPIR, DCDP, DMPlug आदि विधियां व्युत्क्रम समस्याओं को हल करने के लिए वैकल्पिक विसरण, अनुकूलन और पुनः नमूनाकरण के माध्यम से हल करती हैं, उत्कृष्ट प्रदर्शन लेकिन सैद्धांतिक आधार की कमी।

MAP अनुमान विधियां

हाल के कार्य विसरण पूर्व के तहत MAP अनुमान पर ध्यान केंद्रित करने लगे हैं, लेकिन मुख्य रूप से रैखिक व्युत्क्रम समस्याओं तक सीमित हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक एकीकरण: LMAPS अनुकूलन-आधारित विसरण विधियों के लिए एकीकृत संभाव्य व्याख्या प्रदान करता है
  2. प्रदर्शन वृद्धि: कई कार्यों पर उल्लेखनीय PSNR वृद्धि, विशेष रूप से चुनौतीपूर्ण गैर-रैखिक और गैर-अवकलनीय कार्यों पर
  3. कम्प्यूटेशनल दक्षता: मौजूदा विधियों की तुलना में बेहतर कम्प्यूटेशनल दक्षता

सीमाएं

  1. अभिसरण: स्थानीय MAP अनुक्रम आवश्यक रूप से वैश्विक MAP में अभिसरित नहीं होता है
  2. विविधता: DPS की तुलना में, LMAPS कम आउटपुट विविधता उत्पन्न कर सकता है
  3. हाइपरपैरामीटर संवेदनशीलता: विभिन्न कार्यों के लिए पैरामीटर k1k_1 और k2k_2 को समायोजित करने की आवश्यकता है

भविष्य की दिशाएं

पेपर इंगित करता है कि बेयसियन अनुमान में वैश्विक MAP की महत्वपूर्ण भूमिका को बहुत नजरअंदाज किया गया है, विसरण पूर्व के तहत वैश्विक MAP को कुशलतापूर्वक हल करना अभी भी एक खुली चुनौती है। हालांकि MAP एकल मोड पर ध्यान केंद्रित करके आउटपुट विविधता को कम कर सकता है, यह अधिक निश्चितता और अवलोकन डेटा के साथ बेहतर संरेखण प्रदान करता है।

गहन मूल्यांकन

लाभ

  1. महत्वपूर्ण सैद्धांतिक योगदान: पहली बार अनुकूलन-आधारित विसरण विधियों के लिए स्पष्ट संभाव्य व्याख्या प्रदान करता है
  2. व्यापक प्रयोग: 10 छवि पुनर्प्राप्ति कार्यों और 3 वैज्ञानिक व्युत्क्रम समस्याओं को कवर करता है, पूर्ण प्रायोगिक सेटअप
  3. स्पष्ट प्रदर्शन वृद्धि: कई चुनौतीपूर्ण कार्यों पर 2dB से अधिक की उल्लेखनीय वृद्धि
  4. व्यावहारिक विधि: गैर-अवकलनीय संचालकों को संभालने के लिए प्रभावी रणनीति प्रदान करता है
  5. स्पष्ट लेखन: सैद्धांतिक विश्लेषण और विधि विवरण दोनों स्पष्ट हैं

कमियां

  1. सैद्धांतिक विश्लेषण की गहराई: हालांकि संभाव्य व्याख्या प्रदान करता है, लेकिन अभिसरण और सैद्धांतिक गारंटियों का विश्लेषण अपेक्षाकृत सीमित है
  2. हाइपरपैरामीटर जटिलता: प्रत्येक कार्य के लिए कई हाइपरपैरामीटर समायोजित करने की आवश्यकता है, विधि की सामान्यीकरण क्षमता को प्रभावित कर सकता है
  3. कम्प्यूटेशनल ओवरहेड: हालांकि कुछ विधियों की तुलना में अधिक कुशल है, लेकिन प्रत्येक समय चरण पर कई ढाल अद्यतन की आवश्यकता है
  4. मूल्यांकन सीमाएं: मुख्य रूप से पुनर्निर्माण गुणवत्ता पर केंद्रित है, अनिश्चितता परिमाणीकरण का मूल्यांकन अपर्याप्त है

प्रभाव

  1. शैक्षणिक मूल्य: व्युत्क्रम समस्याओं में विसरण मॉडल के अनुप्रयोग के लिए नया सैद्धांतिक दृष्टिकोण प्रदान करता है
  2. व्यावहारिक मूल्य: छवि पुनर्प्राप्ति और वैज्ञानिक कम्प्यूटिंग क्षेत्रों में सीधे अनुप्रयोग मूल्य है
  3. प्रेरणादायक: विसरण मॉडल MAP अनुमान पर अधिक अनुसंधान को प्रेरित कर सकता है

लागू परिदृश्य

  • व्युत्क्रम समस्याएं जहां उच्च गुणवत्ता पुनर्निर्माण की आवश्यकता है, विविधता नहीं
  • गैर-अवकलनीय अग्रगामी संचालकों वाले कार्य (जैसे JPEG पुनर्प्राप्ति, परिमाणीकरण)
  • वैज्ञानिक कम्प्यूटिंग में व्युत्क्रम समस्या समाधान
  • कम्प्यूटेशनल दक्षता की कुछ आवश्यकता वाले वास्तविक समय अनुप्रयोग

संदर्भ

पेपर विसरण मॉडल, व्युत्क्रम समस्या समाधान, बेयसियन अनुमान आदि क्षेत्रों के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें DPS, DAPS, TMPD आदि मुख्य विधियों के मूल पेपर शामिल हैं, संबंधित अनुसंधान के लिए अच्छा साहित्य आधार प्रदान करता है।