2025-11-18T05:16:13.529071

Local MAP Sampling for Diffusion Models

Zhang, Brekelmans, Steeg
Diffusion Posterior Sampling (DPS) provides a principled Bayesian approach to inverse problems by sampling from $p(x_0 \mid y)$. However, in practice, the goal of inverse problem solving is not to cover the posterior but to recover the most accurate reconstruction, where optimization-based diffusion solvers often excel despite lacking a clear probabilistic foundation. We introduce Local MAP Sampling (LMAPS), a new inference framework that iteratively solving local MAP subproblems along the diffusion trajectory. This perspective clarifies their connection to global MAP estimation and DPS, offering a unified probabilistic interpretation for optimization-based methods. Building on this foundation, we develop practical algorithms with a probabilistically interpretable covariance approximation, a reformulated objective for stability and interpretability, and a gradient approximation for non-differentiable operators. Across a broad set of image restoration and scientific tasks, LMAPS achieves state-of-the-art performance, including $\geq 2$ dB gains on motion deblurring, JPEG restoration, and quantization, and $>1.5$ dB improvements on inverse scattering benchmarks.
academic

বিস্তৃত ম্যাপ স্যাম্পলিং ডিফিউশন মডেলের জন্য

মৌলিক তথ্য

  • পেপার আইডি: 2510.07343
  • শিরোনাম: Local MAP Sampling for Diffusion Models
  • লেখক: শাওরং ঝাং (ইউসি রিভারসাইড), রব ব্রেকেলম্যান্স (ভেক্টর ইনস্টিটিউট), গ্রেগ ভার স্টিগ (ইউসি রিভারসাইড)
  • শ্রেণীবিভাগ: cs.GR cs.AI eess.IV
  • প্রকাশনার সময়/সম্মেলন: প্রি-প্রিন্ট (পর্যালোচনাধীন)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.07343

সংক্ষিপ্তসার

ডিফিউশন পোস্টেরিয়র স্যাম্পলিং (DPS) p(x0y)p(x_0 \mid y) থেকে নমুনা গ্রহণের মাধ্যমে বিপরীত সমস্যার জন্য একটি নীতিগত বেইজিয়ান পদ্ধতি প্রদান করে। তবে, ব্যবহারিক ক্ষেত্রে, বিপরীত সমস্যা সমাধানের লক্ষ্য পোস্টেরিয়র বিতরণ কভার করা নয়, বরং সবচেয়ে নির্ভুল পুনর্নির্মাণ ফলাফল পুনরুদ্ধার করা। অপ্টিমাইজেশন-ভিত্তিক ডিফিউশন সমাধানকারীরা সাধারণত এই ক্ষেত্রে উৎকর্ষ লাভ করে, যদিও স্পষ্ট সম্ভাব্যতামূলক ভিত্তির অভাব রয়েছে। এই পেপারটি স্থানীয় ম্যাপ স্যাম্পলিং (LMAPS) উপস্থাপন করে, যা ডিফিউশন ট্র্যাজেক্টরি বরাবর স্থানীয় ম্যাপ সাব-সমস্যা পুনরাবৃত্তিমূলকভাবে সমাধান করার একটি নতুন অনুমান কাঠামো। এই দৃষ্টিভঙ্গি বৈশ্বিক ম্যাপ অনুমান এবং DPS-এর সাথে তাদের সংযোগ স্পষ্ট করে, অপ্টিমাইজেশন-ভিত্তিক পদ্ধতির জন্য একটি একীভূত সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করে। এই ভিত্তির উপর ভিত্তি করে, আমরা সম্ভাব্যতামূলকভাবে ব্যাখ্যাযোগ্য সহভেদ অনুমান, স্থিতিশীলতা এবং ব্যাখ্যাযোগ্যতা সহ পুনর্নির্ধারিত উদ্দেশ্য এবং অ-পার্থক্যযোগ্য অপারেটরের জন্য গ্রেডিয়েন্ট অনুমান সহ ব্যবহারিক অ্যালগরিদম বিকাশ করেছি।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

ডিফিউশন মডেলগুলি বিপরীত সমস্যা সমাধানে দুটি প্রধান চ্যালেঞ্জের সম্মুখীন হয়:

  1. লক্ষ্য অমিল: DPS পোস্টেরিয়র বিতরণ p(x0y)p(x_0|y) থেকে নমুনা গ্রহণের লক্ষ্য রাখে, কিন্তু বিপরীত সমস্যা সমাধানের প্রকৃত লক্ষ্য হল সর্বোত্তম পুনর্নির্মাণ অর্জন করা, বৈচিত্র্যময় নমুনা নয়
  2. তাত্ত্বিক ভিত্তির অভাব: অপ্টিমাইজেশন-ভিত্তিক ডিফিউশন সমাধানকারীরা (যেমন রিস্যাম্পল, ডিফপিআর, ডিসিডিপি ইত্যাদি) কর্মক্ষমতায় উৎকর্ষ লাভ করে, কিন্তু স্পষ্ট সম্ভাব্যতামূলক তাত্ত্বিক ভিত্তির অভাব রয়েছে

গবেষণা প্রেরণা

  • ব্যবহারিক অভিমুখিতা: বিপরীত সমস্যা মূল্যায়ন প্রোটোকল সাধারণত একক সত্য রেফারেন্সের সাথে তুলনা করে, কভারেজ বা বৈচিত্র্যের জন্য পুরস্কার প্রদান করে না
  • তাত্ত্বিক একীকরণ: অপ্টিমাইজেশন পদ্ধতির জন্য সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করা প্রয়োজন, ম্যাপ অনুমান এবং DPS-এর সাথে তাদের সম্পর্ক স্পষ্ট করা
  • কর্মক্ষমতা উন্নতি: তাত্ত্বিক ভিত্তি বজায় রেখে ভাল পুনর্নির্মাণ কর্মক্ষমতা অর্জন করা

মূল অবদান

  1. তাত্ত্বিক অবদান: স্থানীয় ম্যাপ স্যাম্পলিং (LMAPS) কাঠামো প্রস্তাব করা, ডিফিউশন ট্র্যাজেক্টরি বরাবর স্থানীয় ম্যাপ সাব-সমস্যা পুনরাবৃত্তিমূলকভাবে সমাধান করা, বৈশ্বিক ম্যাপ এবং DPS-এর সাথে এর সম্পর্ক বিশ্লেষণ করা, TMPD এবং অপ্টিমাইজেশন-ভিত্তিক বিপরীত সমস্যা পদ্ধতি একীভূত করা
  2. পদ্ধতিগত অবদান:
    • সম্ভাব্যতামূলকভাবে ব্যাখ্যাযোগ্য সহভেদ অনুমান প্রদান করা, বিদ্যমান সমাধানকারীতে অনুমানমূলক পছন্দ প্রতিস্থাপন করা
    • ব্যাখ্যাযোগ্য পরামিতি এবং উন্নত স্থিতিশীলতা অর্জনের জন্য লক্ষ্য পুনর্নির্ধারণ প্রবর্তন করা
    • অ-পার্থক্যযোগ্য অপারেটরের জন্য গ্রেডিয়েন্ট অনুমান কৌশল বিকাশ করা
  3. পরীক্ষামূলক অবদান: 10টি ছবি পুনরুদ্ধার কাজ এবং 3টি বৈজ্ঞানিক বিপরীত সমস্যায় যাচাইকরণ, 46/60 FFHQ/ImageNet ক্ষেত্রে সর্বোত্তম ফলাফল অর্জন, গতি ডিব্লার, JPEG পুনরুদ্ধার এবং পরিমাণকরণ কাজে ≥2dB PSNR উন্নতি অর্জন

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

বিপরীত সমস্যা পূর্ব বিতরণ π(x0)\pi(x_0) এবং শব্দযুক্ত পরিমাপ yRmy \in \mathbb{R}^m থেকে অজানা ছবি বা সংকেত x0Rnx_0 \in \mathbb{R}^n পুনরুদ্ধার করার লক্ষ্য রাখে: y=H(x0)+zy = H(x_0) + z যেখানে H():RnRmH(\cdot): \mathbb{R}^n \to \mathbb{R}^m হল অগ্রবর্তী অপারেটর, zN(0,σy2I)z \sim \mathcal{N}(0, \sigma_y^2 I) হল পরিমাপ শব্দ।

মূল তাত্ত্বিক কাঠামো

বৈশ্বিক ম্যাপ বনাম স্থানীয় ম্যাপ

বৈশ্বিক ম্যাপ সম্পূর্ণ পোস্টেরিয়র সরাসরি অপ্টিমাইজ করে: x0MAP:=argmaxx0p(x0y)x_0^{\text{MAP}} := \arg\max_{x_0} p(x_0|y)

স্থানীয় ম্যাপ প্রতিটি সময় ধাপ tt-এ শর্তসাপেক্ষ অপ্টিমাইজেশন সমস্যা সমাধান করে: x0(t,xt,y):=argmaxp(x0xt,y)x_0^*(t, x_t, y) := \arg\max p(x_0|x_t, y)xtΔt=g(x0,xt,ϵ),ϵN(0,I)x_{t-\Delta t} = g(x_0^*, x_t, \epsilon), \quad \epsilon \sim \mathcal{N}(0,I)

DPS এবং DAPS-এর সাথে সম্পর্ক

  • DPS: শর্তসাপেক্ষ গড় E[x0xt,y]E[x_0|x_t, y] ব্যবহার করে
  • DAPS: p(x0xt,y)p(x_0|x_t, y) থেকে নমুনা গ্রহণ করে
  • LMAPS: শর্তসাপেক্ষ মোড argmaxp(x0xt,y)\arg\max p(x_0|x_t, y) ব্যবহার করে

মূল অন্তর্দৃষ্টি: শুধুমাত্র যখন p(x0xt,y)p(x_0|x_t, y) গাউসিয়ান বিতরণ হয় তখনই DPS এবং LMAPS সমতুল্য।

ব্যবহারিক অ্যালগরিদম ডিজাইন

সহভেদ অনুমান

আইসোট্রপিক অনুমান গ্রহণ করা: Σ0tkSNRI,SNR:=αt2σt2\Sigma_{0|t} \approx \frac{k}{\text{SNR}} I, \quad \text{SNR} := \frac{\alpha_t^2}{\sigma_t^2}

উদ্দেশ্য ফাংশন পুনর্নির্ধারণ

মূল উদ্দেশ্য: x0=argmin{SNRkx0m0t2+1σy2yH(x0)2}x_0^* = \arg\min \left\{\frac{\text{SNR}}{k}\|x_0 - m_{0|t}\|^2 + \frac{1}{\sigma_y^2}\|y - H(x_0)\|^2\right\}

পুনর্নির্ধারিত হয়: x0=argmin{(1μt)12x0m0t2+μtk2yH(x0)2}x_0^* = \arg\min \left\{(1-\mu_t)\frac{1}{2}\|x_0 - m_{0|t}\|^2 + \mu_t k_2\|y - H(x_0)\|^2\right\}

যেখানে μt=σt2σt2+k12(0,1)\mu_t = \frac{\sigma_t^2}{\sigma_t^2 + k_1^2} \in (0,1), যা নিম্নলিখিত অর্জন করে:

  • উত্তল সমন্বয় ব্যাখ্যা: ওজন (1μt)(1-\mu_t) এবং μt\mu_t
  • স্বয়ংক্রিয় অ্যানিলিং: σt2\sigma_t^2 হ্রাসের সাথে, পরিমাপ-চালিত থেকে পূর্ব-চালিত রূপান্তর
  • সংখ্যাগত স্থিতিশীলতা: চরম SNR স্কেলিং এড়ানো

অ-পার্থক্যযোগ্য অপারেটর প্রক্রিয়াকরণ

JPEG পুনরুদ্ধার, পরিমাণকরণ ইত্যাদি অ-পার্থক্যযোগ্য কাজের জন্য, প্রক্সি গ্রেডিয়েন্ট ব্যবহার করা: x0yH(x0)22JH(x0)T(H(x0)y)\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2J_{H'}(x_0)^T(H(x_0) - y)

পরিমাণকরণের জন্য, H(x0)=x0H'(x_0) = x_0 গ্রহণ করা, সরলীকৃত হয়: x0yH(x0)22(H(x0)y)\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2(H(x_0) - y)

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • ছবি পুনরুদ্ধার: FFHQ 256×256 এবং ImageNet 256×256, প্রতিটি 100টি পরীক্ষা ছবি ব্যবহার করে
  • বৈজ্ঞানিক বিপরীত সমস্যা: InverseBench ডেটাসেট ব্যবহার করা, ফ্লুরোসেন্স মাইক্রোস্কোপি ছবি (রৈখিক বিপরীত বিক্ষেপণ), GRMHD ডেটা (কৃষ্ণ গহ্বর ইমেজিং), fastMRI হাঁটু ডেটা (সংকুচিত অনুভূতি MRI) অন্তর্ভুক্ত

মূল্যায়ন মেট্রিক্স

  • ছবি পুনরুদ্ধার: PSNR, SSIM, LPIPS
  • বৈজ্ঞানিক বিপরীত সমস্যা: প্রধানত PSNR ব্যবহার করা, কাজ-নির্দিষ্ট মেট্রিক্স দ্বারা সহায়তা করা

তুলনামূলক পদ্ধতি

DDNM, DDRM, ΠGDM, DPS, LGD, PnP-DM, FPS, MCG-diff, RedDiff, DAPS, DiffPIR, DCDP, DMPlug সহ 12টি পদ্ধতি অন্তর্ভুক্ত

বাস্তবায়ন বিবরণ

  • ডিফিউশন ধাপ: সাধারণত 200 ধাপ
  • গ্রেডিয়েন্ট আপডেট ধাপ: 20-200 ধাপ (কাজ উপর নির্ভর করে)
  • শেখার হার: 0.01-1.0 (কাজ সম্পর্কিত)
  • পরামিতি k1k_1: 0-10, k2k_2: 0.01-30000

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

ছবি পুনরুদ্ধার কাজ

টেবিল 1-এ, LMAPS 60টি ফলাফলের 49টিতে সর্বোত্তম কর্মক্ষমতা অর্জন করে:

  • গতি ডিব্লার: FFHQ-তে 32.62 dB বনাম DAPS-এর 29.66 dB (+2.96 dB)
  • JPEG পুনরুদ্ধার: FFHQ-তে 27.25 dB বনাম ΠGDM-এর 25.04 dB (+2.21 dB)
  • পরিমাণকরণ: FFHQ-তে 29.51 dB বনাম ΠGDM-এর 25.82 dB (+3.69 dB)

বৈজ্ঞানিক বিপরীত সমস্যা

টেবিল 2-এ, LMAPS সমস্ত কাজে সর্বোত্তম PSNR অর্জন করে:

  • রৈখিক বিপরীত বিক্ষেপণ (NR=360): 38.07 dB বনাম RED-diff-এর 36.56 dB (+1.51 dB)
  • রৈখিক বিপরীত বিক্ষেপণ (NR=180): 37.19 dB বনাম RED-diff-এর 35.41 dB (+1.78 dB)
  • রৈখিক বিপরীত বিক্ষেপণ (NR=60): 30.75 dB বনাম RED-diff-এর 27.07 dB (+3.68 dB)

অপসারণ পরীক্ষা

চিত্র 4 অপ্টিমাইজেশন ধাপ এবং ডিফিউশন ধাপের মধ্যে ট্রেড-অফ দেখায়:

  • সর্বোত্তম কর্মক্ষমতা সাধারণত NFE=200-500-এ পর্যবেক্ষণ করা হয়
  • প্রতিটি ডিফিউশন ধাপের অপ্টিমাইজেশন ধাপ বৃদ্ধি করা কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
  • SITCOM (600 NFEs)-এর তুলনায়, LMAPS কম গণনা সম্পদ দিয়ে অনুরূপ কর্মক্ষমতা অর্জন করে

গণনা দক্ষতা

টেবিল 3 ডিব্লার কাজে LMAPS-এর নমুনা সময় দেখায়:

  • LMAPS (200 ধাপ ডিফিউশন, 100 ধাপ অপ্টিমাইজেশন): 61 সেকেন্ড/ছবি, 30.88 dB
  • DAPS (200 ধাপ ডিফিউশন, 100 ধাপ অপ্টিমাইজেশন): 110 সেকেন্ড/ছবি, 29.19 dB
  • SITCOM (600 ধাপ): 73 সেকেন্ড/ছবি, 29.93 dB

সম্পর্কিত কাজ

ডিফিউশন পোস্টেরিয়র স্যাম্পলিং

DPS এবং এর ভেরিয়েন্টগুলি পোস্টেরিয়র বিতরণ p(x0y)p(x_0|y) থেকে সরাসরি নমুনা গ্রহণের মাধ্যমে বিপরীত সমস্যা সমাধান করে, TMPD, DDNM, ΠGDM ইত্যাদি পদ্ধতি অন্তর্ভুক্ত।

অপ্টিমাইজেশন-ভিত্তিক পদ্ধতি

রিস্যাম্পল, ডিফপিআর, ডিসিডিপি, ডিএমপ্লাগ ইত্যাদি পদ্ধতি ডিনোইজিং, অপ্টিমাইজেশন এবং পুনঃস্যাম্পলিং বিকল্পের মাধ্যমে বিপরীত সমস্যা সমাধান করে, উৎকর্ষ কর্মক্ষমতা প্রদান করে কিন্তু তাত্ত্বিক ভিত্তির অভাব রয়েছে।

ম্যাপ অনুমান পদ্ধতি

সাম্প্রতিক কাজ ডিফিউশন পূর্বের অধীনে ম্যাপ অনুমানে মনোযোগ দিতে শুরু করেছে, কিন্তু প্রধানত রৈখিক বিপরীত সমস্যায় সীমাবদ্ধ।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. তাত্ত্বিক একীকরণ: LMAPS অপ্টিমাইজেশন-ভিত্তিক ডিফিউশন পদ্ধতির জন্য একটি একীভূত সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করে
  2. কর্মক্ষমতা উন্নতি: একাধিক কাজে উল্লেখযোগ্য PSNR উন্নতি অর্জন করে, বিশেষত চ্যালেঞ্জিং অ-রৈখিক এবং অ-পার্থক্যযোগ্য কাজে
  3. গণনা দক্ষতা: বিদ্যমান পদ্ধতির তুলনায় ভাল গণনা দক্ষতা

সীমাবদ্ধতা

  1. সংগ্রহ: স্থানীয় ম্যাপ ক্রম অগত্যা বৈশ্বিক ম্যাপে সংগ্রহ করে না
  2. বৈচিত্র্য: DPS-এর তুলনায়, LMAPS কম আউটপুট বৈচিত্র্য উৎপাদন করতে পারে
  3. হাইপারপ্যারামিটার সংবেদনশীলতা: বিভিন্ন কাজের জন্য পরামিতি k1k_1 এবং k2k_2 সামঞ্জস্য করা প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

পেপারটি নির্দেশ করে যে বেইজিয়ান অনুমানে বৈশ্বিক ম্যাপের মূল ভূমিকা ব্যাপকভাবে উপেক্ষা করা হয়েছে, ডিফিউশন পূর্বের অধীনে দক্ষ বৈশ্বিক ম্যাপ সমাধান এখনও একটি উন্মুক্ত চ্যালেঞ্জ। যদিও ম্যাপ একক মোডে ঘনীভূত করে আউটপুট বৈচিত্র্য হ্রাস করতে পারে, এটি উচ্চতর নির্ধারণ এবং পর্যবেক্ষণ ডেটার সাথে ভাল সারিবদ্ধতা প্রদান করে।

গভীর মূল্যায়ন

শক্তি

  1. উল্লেখযোগ্য তাত্ত্বিক অবদান: প্রথমবারের মতো অপ্টিমাইজেশন-ভিত্তিক ডিফিউশন পদ্ধতির জন্য স্পষ্ট সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করা
  2. ব্যাপক পরীক্ষা: 10টি ছবি পুনরুদ্ধার কাজ এবং 3টি বৈজ্ঞানিক বিপরীত সমস্যা কভার করে, সম্পূর্ণ পরীক্ষা সেটআপ
  3. স্পষ্ট কর্মক্ষমতা উন্নতি: একাধিক চ্যালেঞ্জিং কাজে 2dB-এর বেশি উল্লেখযোগ্য উন্নতি অর্জন করে
  4. ব্যবহারিক পদ্ধতি: অ-পার্থক্যযোগ্য অপারেটর পরিচালনার জন্য কার্যকর কৌশল প্রদান করে
  5. স্পষ্ট লেখা: তাত্ত্বিক বিশ্লেষণ এবং পদ্ধতি বর্ণনা উভয়ই স্পষ্ট

দুর্বলতা

  1. তাত্ত্বিক বিশ্লেষণ গভীরতা: যদিও সম্ভাব্যতামূলক ব্যাখ্যা প্রদান করা হয়েছে, সংগ্রহ এবং তাত্ত্বিক গ্যারান্টির বিশ্লেষণ অপেক্ষাকৃত সীমিত
  2. হাইপারপ্যারামিটার জটিলতা: প্রতিটি কাজের জন্য একাধিক হাইপারপ্যারামিটার সামঞ্জস্য করা প্রয়োজন, পদ্ধতির সাধারণীকরণকে প্রভাবিত করতে পারে
  3. গণনা ওভারহেড: যদিও কিছু পদ্ধতির তুলনায় আরও দক্ষ, এখনও প্রতিটি সময় ধাপে একাধিক গ্রেডিয়েন্ট আপডেট প্রয়োজন
  4. মূল্যায়ন সীমাবদ্ধতা: প্রধানত পুনর্নির্মাণ গুণমানে ফোকাস করে, অনিশ্চয়তা পরিমাণকরণের মূল্যায়ন অপর্যাপ্ত

প্রভাব

  1. একাডেমিক মূল্য: বিপরীত সমস্যায় ডিফিউশন মডেলের প্রয়োগের জন্য নতুন তাত্ত্বিক দৃষ্টিভঙ্গি প্রদান করে
  2. ব্যবহারিক মূল্য: ছবি পুনরুদ্ধার এবং বৈজ্ঞানিক গণনা ক্ষেত্রে সরাসরি প্রয়োগ মূল্য রয়েছে
  3. অনুপ্রেরণামূলক: ডিফিউশন মডেল ম্যাপ অনুমান সম্পর্কে আরও গবেষণা অনুপ্রাণিত করতে পারে

প্রযোজ্য পরিস্থিতি

  • উচ্চ মানের পুনর্নির্মাণ প্রয়োজন এমন বিপরীত সমস্যা, বৈচিত্র্য নয়
  • অ-পার্থক্যযোগ্য অগ্রবর্তী অপারেটর জড়িত কাজ (যেমন JPEG পুনরুদ্ধার, পরিমাণকরণ)
  • বৈজ্ঞানিক গণনায় বিপরীত সমস্যা সমাধান
  • গণনা দক্ষতার জন্য নির্দিষ্ট প্রয়োজনীয়তা সহ রিয়েল-টাইম প্রয়োগ

সংদর্ভ

পেপারটি ডিফিউশন মডেল, বিপরীত সমস্যা সমাধান, বেইজিয়ান অনুমান ইত্যাদি ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, DPS, DAPS, TMPD ইত্যাদি মূল পদ্ধতির মূল পেপার অন্তর্ভুক্ত করে, সম্পর্কিত গবেষণার জন্য একটি ভাল সাহিত্য ভিত্তি প্রদান করে।