Diffusion Posterior Sampling (DPS) provides a principled Bayesian approach to inverse problems by sampling from $p(x_0 \mid y)$. However, in practice, the goal of inverse problem solving is not to cover the posterior but to recover the most accurate reconstruction, where optimization-based diffusion solvers often excel despite lacking a clear probabilistic foundation. We introduce Local MAP Sampling (LMAPS), a new inference framework that iteratively solving local MAP subproblems along the diffusion trajectory. This perspective clarifies their connection to global MAP estimation and DPS, offering a unified probabilistic interpretation for optimization-based methods. Building on this foundation, we develop practical algorithms with a probabilistically interpretable covariance approximation, a reformulated objective for stability and interpretability, and a gradient approximation for non-differentiable operators. Across a broad set of image restoration and scientific tasks, LMAPS achieves state-of-the-art performance, including $\geq 2$ dB gains on motion deblurring, JPEG restoration, and quantization, and $>1.5$ dB improvements on inverse scattering benchmarks.
- পেপার আইডি: 2510.07343
- শিরোনাম: Local MAP Sampling for Diffusion Models
- লেখক: শাওরং ঝাং (ইউসি রিভারসাইড), রব ব্রেকেলম্যান্স (ভেক্টর ইনস্টিটিউট), গ্রেগ ভার স্টিগ (ইউসি রিভারসাইড)
- শ্রেণীবিভাগ: cs.GR cs.AI eess.IV
- প্রকাশনার সময়/সম্মেলন: প্রি-প্রিন্ট (পর্যালোচনাধীন)
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.07343
ডিফিউশন পোস্টেরিয়র স্যাম্পলিং (DPS) p(x0∣y) থেকে নমুনা গ্রহণের মাধ্যমে বিপরীত সমস্যার জন্য একটি নীতিগত বেইজিয়ান পদ্ধতি প্রদান করে। তবে, ব্যবহারিক ক্ষেত্রে, বিপরীত সমস্যা সমাধানের লক্ষ্য পোস্টেরিয়র বিতরণ কভার করা নয়, বরং সবচেয়ে নির্ভুল পুনর্নির্মাণ ফলাফল পুনরুদ্ধার করা। অপ্টিমাইজেশন-ভিত্তিক ডিফিউশন সমাধানকারীরা সাধারণত এই ক্ষেত্রে উৎকর্ষ লাভ করে, যদিও স্পষ্ট সম্ভাব্যতামূলক ভিত্তির অভাব রয়েছে। এই পেপারটি স্থানীয় ম্যাপ স্যাম্পলিং (LMAPS) উপস্থাপন করে, যা ডিফিউশন ট্র্যাজেক্টরি বরাবর স্থানীয় ম্যাপ সাব-সমস্যা পুনরাবৃত্তিমূলকভাবে সমাধান করার একটি নতুন অনুমান কাঠামো। এই দৃষ্টিভঙ্গি বৈশ্বিক ম্যাপ অনুমান এবং DPS-এর সাথে তাদের সংযোগ স্পষ্ট করে, অপ্টিমাইজেশন-ভিত্তিক পদ্ধতির জন্য একটি একীভূত সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করে। এই ভিত্তির উপর ভিত্তি করে, আমরা সম্ভাব্যতামূলকভাবে ব্যাখ্যাযোগ্য সহভেদ অনুমান, স্থিতিশীলতা এবং ব্যাখ্যাযোগ্যতা সহ পুনর্নির্ধারিত উদ্দেশ্য এবং অ-পার্থক্যযোগ্য অপারেটরের জন্য গ্রেডিয়েন্ট অনুমান সহ ব্যবহারিক অ্যালগরিদম বিকাশ করেছি।
ডিফিউশন মডেলগুলি বিপরীত সমস্যা সমাধানে দুটি প্রধান চ্যালেঞ্জের সম্মুখীন হয়:
- লক্ষ্য অমিল: DPS পোস্টেরিয়র বিতরণ p(x0∣y) থেকে নমুনা গ্রহণের লক্ষ্য রাখে, কিন্তু বিপরীত সমস্যা সমাধানের প্রকৃত লক্ষ্য হল সর্বোত্তম পুনর্নির্মাণ অর্জন করা, বৈচিত্র্যময় নমুনা নয়
- তাত্ত্বিক ভিত্তির অভাব: অপ্টিমাইজেশন-ভিত্তিক ডিফিউশন সমাধানকারীরা (যেমন রিস্যাম্পল, ডিফপিআর, ডিসিডিপি ইত্যাদি) কর্মক্ষমতায় উৎকর্ষ লাভ করে, কিন্তু স্পষ্ট সম্ভাব্যতামূলক তাত্ত্বিক ভিত্তির অভাব রয়েছে
- ব্যবহারিক অভিমুখিতা: বিপরীত সমস্যা মূল্যায়ন প্রোটোকল সাধারণত একক সত্য রেফারেন্সের সাথে তুলনা করে, কভারেজ বা বৈচিত্র্যের জন্য পুরস্কার প্রদান করে না
- তাত্ত্বিক একীকরণ: অপ্টিমাইজেশন পদ্ধতির জন্য সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করা প্রয়োজন, ম্যাপ অনুমান এবং DPS-এর সাথে তাদের সম্পর্ক স্পষ্ট করা
- কর্মক্ষমতা উন্নতি: তাত্ত্বিক ভিত্তি বজায় রেখে ভাল পুনর্নির্মাণ কর্মক্ষমতা অর্জন করা
- তাত্ত্বিক অবদান: স্থানীয় ম্যাপ স্যাম্পলিং (LMAPS) কাঠামো প্রস্তাব করা, ডিফিউশন ট্র্যাজেক্টরি বরাবর স্থানীয় ম্যাপ সাব-সমস্যা পুনরাবৃত্তিমূলকভাবে সমাধান করা, বৈশ্বিক ম্যাপ এবং DPS-এর সাথে এর সম্পর্ক বিশ্লেষণ করা, TMPD এবং অপ্টিমাইজেশন-ভিত্তিক বিপরীত সমস্যা পদ্ধতি একীভূত করা
- পদ্ধতিগত অবদান:
- সম্ভাব্যতামূলকভাবে ব্যাখ্যাযোগ্য সহভেদ অনুমান প্রদান করা, বিদ্যমান সমাধানকারীতে অনুমানমূলক পছন্দ প্রতিস্থাপন করা
- ব্যাখ্যাযোগ্য পরামিতি এবং উন্নত স্থিতিশীলতা অর্জনের জন্য লক্ষ্য পুনর্নির্ধারণ প্রবর্তন করা
- অ-পার্থক্যযোগ্য অপারেটরের জন্য গ্রেডিয়েন্ট অনুমান কৌশল বিকাশ করা
- পরীক্ষামূলক অবদান: 10টি ছবি পুনরুদ্ধার কাজ এবং 3টি বৈজ্ঞানিক বিপরীত সমস্যায় যাচাইকরণ, 46/60 FFHQ/ImageNet ক্ষেত্রে সর্বোত্তম ফলাফল অর্জন, গতি ডিব্লার, JPEG পুনরুদ্ধার এবং পরিমাণকরণ কাজে ≥2dB PSNR উন্নতি অর্জন
বিপরীত সমস্যা পূর্ব বিতরণ π(x0) এবং শব্দযুক্ত পরিমাপ y∈Rm থেকে অজানা ছবি বা সংকেত x0∈Rn পুনরুদ্ধার করার লক্ষ্য রাখে:
y=H(x0)+z
যেখানে H(⋅):Rn→Rm হল অগ্রবর্তী অপারেটর, z∼N(0,σy2I) হল পরিমাপ শব্দ।
বৈশ্বিক ম্যাপ সম্পূর্ণ পোস্টেরিয়র সরাসরি অপ্টিমাইজ করে:
x0MAP:=argmaxx0p(x0∣y)
স্থানীয় ম্যাপ প্রতিটি সময় ধাপ t-এ শর্তসাপেক্ষ অপ্টিমাইজেশন সমস্যা সমাধান করে:
x0∗(t,xt,y):=argmaxp(x0∣xt,y)xt−Δt=g(x0∗,xt,ϵ),ϵ∼N(0,I)
- DPS: শর্তসাপেক্ষ গড় E[x0∣xt,y] ব্যবহার করে
- DAPS: p(x0∣xt,y) থেকে নমুনা গ্রহণ করে
- LMAPS: শর্তসাপেক্ষ মোড argmaxp(x0∣xt,y) ব্যবহার করে
মূল অন্তর্দৃষ্টি: শুধুমাত্র যখন p(x0∣xt,y) গাউসিয়ান বিতরণ হয় তখনই DPS এবং LMAPS সমতুল্য।
আইসোট্রপিক অনুমান গ্রহণ করা:
Σ0∣t≈SNRkI,SNR:=σt2αt2
মূল উদ্দেশ্য:
x0∗=argmin{kSNR∥x0−m0∣t∥2+σy21∥y−H(x0)∥2}
পুনর্নির্ধারিত হয়:
x0∗=argmin{(1−μt)21∥x0−m0∣t∥2+μtk2∥y−H(x0)∥2}
যেখানে μt=σt2+k12σt2∈(0,1), যা নিম্নলিখিত অর্জন করে:
- উত্তল সমন্বয় ব্যাখ্যা: ওজন (1−μt) এবং μt
- স্বয়ংক্রিয় অ্যানিলিং: σt2 হ্রাসের সাথে, পরিমাপ-চালিত থেকে পূর্ব-চালিত রূপান্তর
- সংখ্যাগত স্থিতিশীলতা: চরম SNR স্কেলিং এড়ানো
JPEG পুনরুদ্ধার, পরিমাণকরণ ইত্যাদি অ-পার্থক্যযোগ্য কাজের জন্য, প্রক্সি গ্রেডিয়েন্ট ব্যবহার করা:
∇x0∥y−H(x0)∥2≈2JH′(x0)T(H(x0)−y)
পরিমাণকরণের জন্য, H′(x0)=x0 গ্রহণ করা, সরলীকৃত হয়:
∇x0∥y−H(x0)∥2≈2(H(x0)−y)
- ছবি পুনরুদ্ধার: FFHQ 256×256 এবং ImageNet 256×256, প্রতিটি 100টি পরীক্ষা ছবি ব্যবহার করে
- বৈজ্ঞানিক বিপরীত সমস্যা: InverseBench ডেটাসেট ব্যবহার করা, ফ্লুরোসেন্স মাইক্রোস্কোপি ছবি (রৈখিক বিপরীত বিক্ষেপণ), GRMHD ডেটা (কৃষ্ণ গহ্বর ইমেজিং), fastMRI হাঁটু ডেটা (সংকুচিত অনুভূতি MRI) অন্তর্ভুক্ত
- ছবি পুনরুদ্ধার: PSNR, SSIM, LPIPS
- বৈজ্ঞানিক বিপরীত সমস্যা: প্রধানত PSNR ব্যবহার করা, কাজ-নির্দিষ্ট মেট্রিক্স দ্বারা সহায়তা করা
DDNM, DDRM, ΠGDM, DPS, LGD, PnP-DM, FPS, MCG-diff, RedDiff, DAPS, DiffPIR, DCDP, DMPlug সহ 12টি পদ্ধতি অন্তর্ভুক্ত
- ডিফিউশন ধাপ: সাধারণত 200 ধাপ
- গ্রেডিয়েন্ট আপডেট ধাপ: 20-200 ধাপ (কাজ উপর নির্ভর করে)
- শেখার হার: 0.01-1.0 (কাজ সম্পর্কিত)
- পরামিতি k1: 0-10, k2: 0.01-30000
টেবিল 1-এ, LMAPS 60টি ফলাফলের 49টিতে সর্বোত্তম কর্মক্ষমতা অর্জন করে:
- গতি ডিব্লার: FFHQ-তে 32.62 dB বনাম DAPS-এর 29.66 dB (+2.96 dB)
- JPEG পুনরুদ্ধার: FFHQ-তে 27.25 dB বনাম ΠGDM-এর 25.04 dB (+2.21 dB)
- পরিমাণকরণ: FFHQ-তে 29.51 dB বনাম ΠGDM-এর 25.82 dB (+3.69 dB)
টেবিল 2-এ, LMAPS সমস্ত কাজে সর্বোত্তম PSNR অর্জন করে:
- রৈখিক বিপরীত বিক্ষেপণ (NR=360): 38.07 dB বনাম RED-diff-এর 36.56 dB (+1.51 dB)
- রৈখিক বিপরীত বিক্ষেপণ (NR=180): 37.19 dB বনাম RED-diff-এর 35.41 dB (+1.78 dB)
- রৈখিক বিপরীত বিক্ষেপণ (NR=60): 30.75 dB বনাম RED-diff-এর 27.07 dB (+3.68 dB)
চিত্র 4 অপ্টিমাইজেশন ধাপ এবং ডিফিউশন ধাপের মধ্যে ট্রেড-অফ দেখায়:
- সর্বোত্তম কর্মক্ষমতা সাধারণত NFE=200-500-এ পর্যবেক্ষণ করা হয়
- প্রতিটি ডিফিউশন ধাপের অপ্টিমাইজেশন ধাপ বৃদ্ধি করা কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
- SITCOM (600 NFEs)-এর তুলনায়, LMAPS কম গণনা সম্পদ দিয়ে অনুরূপ কর্মক্ষমতা অর্জন করে
টেবিল 3 ডিব্লার কাজে LMAPS-এর নমুনা সময় দেখায়:
- LMAPS (200 ধাপ ডিফিউশন, 100 ধাপ অপ্টিমাইজেশন): 61 সেকেন্ড/ছবি, 30.88 dB
- DAPS (200 ধাপ ডিফিউশন, 100 ধাপ অপ্টিমাইজেশন): 110 সেকেন্ড/ছবি, 29.19 dB
- SITCOM (600 ধাপ): 73 সেকেন্ড/ছবি, 29.93 dB
DPS এবং এর ভেরিয়েন্টগুলি পোস্টেরিয়র বিতরণ p(x0∣y) থেকে সরাসরি নমুনা গ্রহণের মাধ্যমে বিপরীত সমস্যা সমাধান করে, TMPD, DDNM, ΠGDM ইত্যাদি পদ্ধতি অন্তর্ভুক্ত।
রিস্যাম্পল, ডিফপিআর, ডিসিডিপি, ডিএমপ্লাগ ইত্যাদি পদ্ধতি ডিনোইজিং, অপ্টিমাইজেশন এবং পুনঃস্যাম্পলিং বিকল্পের মাধ্যমে বিপরীত সমস্যা সমাধান করে, উৎকর্ষ কর্মক্ষমতা প্রদান করে কিন্তু তাত্ত্বিক ভিত্তির অভাব রয়েছে।
সাম্প্রতিক কাজ ডিফিউশন পূর্বের অধীনে ম্যাপ অনুমানে মনোযোগ দিতে শুরু করেছে, কিন্তু প্রধানত রৈখিক বিপরীত সমস্যায় সীমাবদ্ধ।
- তাত্ত্বিক একীকরণ: LMAPS অপ্টিমাইজেশন-ভিত্তিক ডিফিউশন পদ্ধতির জন্য একটি একীভূত সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করে
- কর্মক্ষমতা উন্নতি: একাধিক কাজে উল্লেখযোগ্য PSNR উন্নতি অর্জন করে, বিশেষত চ্যালেঞ্জিং অ-রৈখিক এবং অ-পার্থক্যযোগ্য কাজে
- গণনা দক্ষতা: বিদ্যমান পদ্ধতির তুলনায় ভাল গণনা দক্ষতা
- সংগ্রহ: স্থানীয় ম্যাপ ক্রম অগত্যা বৈশ্বিক ম্যাপে সংগ্রহ করে না
- বৈচিত্র্য: DPS-এর তুলনায়, LMAPS কম আউটপুট বৈচিত্র্য উৎপাদন করতে পারে
- হাইপারপ্যারামিটার সংবেদনশীলতা: বিভিন্ন কাজের জন্য পরামিতি k1 এবং k2 সামঞ্জস্য করা প্রয়োজন
পেপারটি নির্দেশ করে যে বেইজিয়ান অনুমানে বৈশ্বিক ম্যাপের মূল ভূমিকা ব্যাপকভাবে উপেক্ষা করা হয়েছে, ডিফিউশন পূর্বের অধীনে দক্ষ বৈশ্বিক ম্যাপ সমাধান এখনও একটি উন্মুক্ত চ্যালেঞ্জ। যদিও ম্যাপ একক মোডে ঘনীভূত করে আউটপুট বৈচিত্র্য হ্রাস করতে পারে, এটি উচ্চতর নির্ধারণ এবং পর্যবেক্ষণ ডেটার সাথে ভাল সারিবদ্ধতা প্রদান করে।
- উল্লেখযোগ্য তাত্ত্বিক অবদান: প্রথমবারের মতো অপ্টিমাইজেশন-ভিত্তিক ডিফিউশন পদ্ধতির জন্য স্পষ্ট সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করা
- ব্যাপক পরীক্ষা: 10টি ছবি পুনরুদ্ধার কাজ এবং 3টি বৈজ্ঞানিক বিপরীত সমস্যা কভার করে, সম্পূর্ণ পরীক্ষা সেটআপ
- স্পষ্ট কর্মক্ষমতা উন্নতি: একাধিক চ্যালেঞ্জিং কাজে 2dB-এর বেশি উল্লেখযোগ্য উন্নতি অর্জন করে
- ব্যবহারিক পদ্ধতি: অ-পার্থক্যযোগ্য অপারেটর পরিচালনার জন্য কার্যকর কৌশল প্রদান করে
- স্পষ্ট লেখা: তাত্ত্বিক বিশ্লেষণ এবং পদ্ধতি বর্ণনা উভয়ই স্পষ্ট
- তাত্ত্বিক বিশ্লেষণ গভীরতা: যদিও সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করা হয়েছে, সংগ্রহ এবং তাত্ত্বিক গ্যারান্টির বিশ্লেষণ অপেক্ষাকৃত সীমিত
- হাইপারপ্যারামিটার জটিলতা: প্রতিটি কাজের জন্য একাধিক হাইপারপ্যারামিটার সামঞ্জস্য করা প্রয়োজন, পদ্ধতির সাধারণীকরণকে প্রভাবিত করতে পারে
- গণনা ওভারহেড: যদিও কিছু পদ্ধতির তুলনায় আরও দক্ষ, এখনও প্রতিটি সময় ধাপে একাধিক গ্রেডিয়েন্ট আপডেট প্রয়োজন
- মূল্যায়ন সীমাবদ্ধতা: প্রধানত পুনর্নির্মাণ গুণমানে ফোকাস করে, অনিশ্চয়তা পরিমাণকরণের মূল্যায়ন অপর্যাপ্ত
- একাডেমিক মূল্য: বিপরীত সমস্যায় ডিফিউশন মডেলের প্রয়োগের জন্য নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করে
- ব্যবহারিক মূল্য: ছবি পুনরুদ্ধার এবং বৈজ্ঞানিক গণনা ক্ষেত্রে সরাসরি প্রয়োগ মূল্য রয়েছে
- অনুপ্রেরণামূলক: ডিফিউশন মডেল ম্যাপ অনুমান সম্পর্কে আরও গবেষণা অনুপ্রাণিত করতে পারে
- উচ্চ মানের পুনর্নির্মাণ প্রয়োজন এমন বিপরীত সমস্যা, বৈচিত্র্য নয়
- অ-পার্থক্যযোগ্য অগ্রবর্তী অপারেটর জড়িত কাজ (যেমন JPEG পুনরুদ্ধার, পরিমাণকরণ)
- বৈজ্ঞানিক গণনায় বিপরীত সমস্যা সমাধান
- গণনা দক্ষতার জন্য নির্দিষ্ট প্রয়োজনীয়তা সহ রিয়েল-টাইম প্রয়োগ
পেপারটি ডিফিউশন মডেল, বিপরীত সমস্যা সমাধান, বেইজিয়ান অনুমান ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, DPS, DAPS, TMPD ইত্যাদি মূল পদ্ধতির মূল পেপার অন্তর্ভুক্ত করে, সম্পর্কিত গবেষণার জন্য একটি ভাল সাহিত্য ভিত্তি প্রদান করে।