2025-11-18T05:16:13.529071

Local MAP Sampling for Diffusion Models

Zhang, Brekelmans, Steeg
Diffusion Posterior Sampling (DPS) provides a principled Bayesian approach to inverse problems by sampling from $p(x_0 \mid y)$. However, in practice, the goal of inverse problem solving is not to cover the posterior but to recover the most accurate reconstruction, where optimization-based diffusion solvers often excel despite lacking a clear probabilistic foundation. We introduce Local MAP Sampling (LMAPS), a new inference framework that iteratively solving local MAP subproblems along the diffusion trajectory. This perspective clarifies their connection to global MAP estimation and DPS, offering a unified probabilistic interpretation for optimization-based methods. Building on this foundation, we develop practical algorithms with a probabilistically interpretable covariance approximation, a reformulated objective for stability and interpretability, and a gradient approximation for non-differentiable operators. Across a broad set of image restoration and scientific tasks, LMAPS achieves state-of-the-art performance, including $\geq 2$ dB gains on motion deblurring, JPEG restoration, and quantization, and $>1.5$ dB improvements on inverse scattering benchmarks.
academic

أخذ العينات المحلي MAP لنماذج الانتشار

المعلومات الأساسية

  • معرّف الورقة: 2510.07343
  • العنوان: Local MAP Sampling for Diffusion Models
  • المؤلفون: Shaorong Zhang (جامعة كاليفورنيا بriverside)، Rob Brekelmans (معهد Vector)، Greg Ver Steeg (جامعة كاليفورنيا بriverside)
  • التصنيف: cs.GR cs.AI eess.IV
  • وقت النشر/المؤتمر: ورقة بحثية أولية (قيد المراجعة)
  • رابط الورقة: https://arxiv.org/abs/2510.07343

الملخص

يوفر أخذ العينات من الانتشار اللاحق (DPS) منهجاً بايزياً منطقياً لحل المسائل العكسية من خلال أخذ عينات من p(x0y)p(x_0 \mid y). ومع ذلك، في التطبيق العملي، الهدف من حل المسائل العكسية ليس تغطية التوزيع اللاحق، بل استرجاع أدق نتيجة إعادة بناء، حيث تُظهر محللات الانتشار القائمة على التحسين أداءً متفوقاً في هذا الصدد، على الرغم من افتقارها إلى أساس احتمالي واضح. تقدم هذه الورقة أخذ العينات المحلي MAP (LMAPS)، وهو إطار استدلالي جديد يحل مشاكل MAP الجزئية المحلية بشكل متكرر على طول مسار الانتشار. يوضح هذا المنظور علاقتها بتقدير MAP العام و DPS، مما يوفر تفسيراً احتمالياً موحداً للطرق القائمة على التحسين. بناءً على هذا الأساس، نطور خوارزميات عملية مع تقريبات التباين القابلة للتفسير احتمالياً والأهداف المعاد صياغتها من أجل الاستقرار والقابلية للتفسير وتقريبات التدرج للمشغلات غير القابلة للتفاضل.

الخلفية البحثية والدافع

خلفية المشكلة

تواجه نماذج الانتشار تحديين رئيسيين في حل المسائل العكسية:

  1. عدم توافق الأهداف: يهدف DPS إلى أخذ عينات من التوزيع اللاحق p(x0y)p(x_0|y)، لكن الهدف الفعلي لحل المسائل العكسية هو الحصول على أفضل إعادة بناء، وليس أخذ عينات متنوعة
  2. غياب الأساس النظري: محللات الانتشار القائمة على التحسين (مثل Resample و DiffPIR و DCDP وغيرها) تُظهر أداءً متفوقاً، لكنها تفتقر إلى أساس نظري احتمالي واضح

دافع البحث

  • التوجه العملي: بروتوكولات تقييم المسائل العكسية عادة ما تقارن مع مرجع حقيقي واحد، ولا توفر مكافآت للتغطية أو التنوع
  • التوحيد النظري: الحاجة إلى توفير تفسير احتمالي للطرق القائمة على التحسين، وتوضيح علاقتها بتقدير MAP و DPS
  • تحسين الأداء: تحقيق أداء إعادة بناء أفضل مع الحفاظ على الأساس النظري

المساهمات الأساسية

  1. المساهمة النظرية: اقتراح إطار أخذ العينات المحلي MAP (LMAPS) الذي يحل مشاكل MAP الجزئية المحلية بشكل متكرر على طول مسار الانتشار، وتحليل علاقتها بـ MAP العام و DPS، وتوحيد TMPD والطرق القائمة على التحسين لحل المسائل العكسية
  2. المساهمة المنهجية:
    • توفير تقريبات التباين القابلة للتفسير احتمالياً، بدلاً من الخيارات الاستكشافية في المحللات الموجودة
    • إدخال إعادة صياغة الأهداف لتحقيق معاملات قابلة للتفسير وتحسين الاستقرار
    • تطوير استراتيجيات تقريب التدرج للمشغلات غير القابلة للتفاضل
  3. المساهمة التجريبية: التحقق على 10 مهام استرجاع صور و 3 مسائل عكسية علمية، تحقيق أفضل النتائج في 46/60 حالة FFHQ/ImageNet، وتحقيق تحسن PSNR ≥2dB في مهام إزالة الضبابية الحركية واستعادة JPEG والتكميم

شرح الطريقة

تعريف المهمة

تهدف المسائل العكسية إلى استرجاع الصورة أو الإشارة المجهولة x0Rnx_0 \in \mathbb{R}^n من التوزيع السابق π(x0)\pi(x_0) والقياس الضوضائي yRmy \in \mathbb{R}^m: y=H(x0)+zy = H(x_0) + z حيث H():RnRmH(\cdot): \mathbb{R}^n \to \mathbb{R}^m هو المشغل الأمامي، و zN(0,σy2I)z \sim \mathcal{N}(0, \sigma_y^2 I) هي ضوضاء القياس.

الإطار النظري الأساسي

MAP العام مقابل MAP المحلي

MAP العام يحسّن المحسوب اللاحق الكامل مباشرة: x0MAP:=argmaxx0p(x0y)x_0^{\text{MAP}} := \arg\max_{x_0} p(x_0|y)

MAP المحلي يحل مشكلة تحسين مشروطة في كل خطوة زمنية tt: x0(t,xt,y):=argmaxp(x0xt,y)x_0^*(t, x_t, y) := \arg\max p(x_0|x_t, y)xtΔt=g(x0,xt,ϵ),ϵN(0,I)x_{t-\Delta t} = g(x_0^*, x_t, \epsilon), \quad \epsilon \sim \mathcal{N}(0,I)

العلاقة مع DPS و DAPS

  • DPS: يستخدم المتوسط المشروط E[x0xt,y]E[x_0|x_t, y]
  • DAPS: يأخذ عينات من p(x0xt,y)p(x_0|x_t, y)
  • LMAPS: يستخدم الوضع المشروط argmaxp(x0xt,y)\arg\max p(x_0|x_t, y)

الرؤية الرئيسية: يكون DPS و LMAPS متكافئين فقط عندما يكون p(x0xt,y)p(x_0|x_t, y) توزيعاً غاوسياً.

تصميم الخوارزمية العملية

تقريب التباين

اعتماد التقريب الخواص المتساوية: Σ0tkSNRI,SNR:=αt2σt2\Sigma_{0|t} \approx \frac{k}{\text{SNR}} I, \quad \text{SNR} := \frac{\alpha_t^2}{\sigma_t^2}

إعادة صياغة دالة الهدف

إعادة صياغة الهدف الأصلي: x0=argmin{SNRkx0m0t2+1σy2yH(x0)2}x_0^* = \arg\min \left\{\frac{\text{SNR}}{k}\|x_0 - m_{0|t}\|^2 + \frac{1}{\sigma_y^2}\|y - H(x_0)\|^2\right\}

إلى: x0=argmin{(1μt)12x0m0t2+μtk2yH(x0)2}x_0^* = \arg\min \left\{(1-\mu_t)\frac{1}{2}\|x_0 - m_{0|t}\|^2 + \mu_t k_2\|y - H(x_0)\|^2\right\}

حيث μt=σt2σt2+k12(0,1)\mu_t = \frac{\sigma_t^2}{\sigma_t^2 + k_1^2} \in (0,1)، مما يحقق:

  • تفسير التركيبة المحدبة: الأوزان (1μt)(1-\mu_t) و μt\mu_t
  • التلدين التلقائي: مع انخفاض σt2\sigma_t^2، الانتقال من القيادة بالقياس إلى القيادة بالسابق
  • الاستقرار العددي: تجنب تحجيم SNR الشديد

معالجة المشغلات غير القابلة للتفاضل

بالنسبة لمهام غير قابلة للتفاضل مثل استعادة JPEG والتكميم، استخدام تدرج بديل: x0yH(x0)22JH(x0)T(H(x0)y)\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2J_{H'}(x_0)^T(H(x_0) - y)

بالنسبة للتكميم، اعتماد H(x0)=x0H'(x_0) = x_0، مما يبسط إلى: x0yH(x0)22(H(x0)y)\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2(H(x_0) - y)

إعداد التجارب

مجموعات البيانات

  • استرجاع الصور: FFHQ 256×256 و ImageNet 256×256، باستخدام 100 صورة اختبار لكل منهما
  • المسائل العكسية العلمية: استخدام مجموعة بيانات InverseBench، تتضمن صور المجهر الفلوري (التشتت العكسي الخطي)، بيانات GRMHD (تصوير الثقب الأسود)، بيانات fastMRI للركبة (الرنين المغناطيسي بالاستشعار المضغوط)

مقاييس التقييم

  • استرجاع الصور: PSNR و SSIM و LPIPS
  • المسائل العكسية العلمية: استخدام PSNR بشكل أساسي، مع مقاييس خاصة بالمهمة

طرق المقارنة

تشمل DDNM و DDRM و ΠGDM و DPS و LGD و PnP-DM و FPS و MCG-diff و RedDiff و DAPS و DiffPIR و DCDP و DMPlug وغيرها من 12 طريقة

تفاصيل التنفيذ

  • خطوات الانتشار: عادة 200 خطوة
  • خطوات تحديث التدرج: 20-200 خطوة (حسب المهمة)
  • معدل التعلم: 0.01-1.0 (متعلق بالمهمة)
  • المعامل k1k_1: 0-10، k2k_2: 0.01-30000

نتائج التجارب

النتائج الرئيسية

مهام استرجاع الصور

في الجدول 1، يحقق LMAPS أفضل أداء في 49 من 60 نتيجة:

  • إزالة الضبابية الحركية: 32.62 dB على FFHQ مقابل 29.66 dB لـ DAPS (+2.96 dB)
  • استعادة JPEG: 27.25 dB على FFHQ مقابل 25.04 dB لـ ΠGDM (+2.21 dB)
  • التكميم: 29.51 dB على FFHQ مقابل 25.82 dB لـ ΠGDM (+3.69 dB)

المسائل العكسية العلمية

في الجدول 2، يحقق LMAPS أفضل PSNR في جميع المهام:

  • التشتت العكسي الخطي (NR=360): 38.07 dB مقابل 36.56 dB لـ RED-diff (+1.51 dB)
  • التشتت العكسي الخطي (NR=180): 37.19 dB مقابل 35.41 dB لـ RED-diff (+1.78 dB)
  • التشتت العكسي الخطي (NR=60): 30.75 dB مقابل 27.07 dB لـ RED-diff (+3.68 dB)

تجارب الاستئصال

يوضح الشكل 4 المقايضة بين خطوات التحسين وخطوات الانتشار:

  • يُلاحظ أفضل أداء عادة عند NFE=200-500
  • زيادة خطوات التحسين لكل خطوة انتشار تحسّن الأداء بشكل كبير
  • مقارنة بـ SITCOM (600 NFEs)، يحقق LMAPS أداءً مماثلاً بموارد حسابية أقل

الكفاءة الحسابية

يوضح الجدول 3 وقت أخذ العينات لـ LMAPS في مهمة إزالة الضبابية:

  • LMAPS (200 خطوة انتشار، 100 خطوة تحسين): 61 ثانية/صورة، 30.88 dB
  • DAPS (200 خطوة انتشار، 100 خطوة تحسين): 110 ثواني/صورة، 29.19 dB
  • SITCOM (600 خطوة): 73 ثانية/صورة، 29.93 dB

الأعمال ذات الصلة

أخذ العينات من الانتشار اللاحق

يحل DPS ومتغيراته المسائل العكسية من خلال أخذ عينات مباشرة من التوزيع اللاحق p(x0y)p(x_0|y)، بما في ذلك طرق TMPD و DDNM و ΠGDM وغيرها.

الطرق القائمة على التحسين

تحل طرق Resample و DiffPIR و DCDP و DMPlug وغيرها المسائل العكسية من خلال التناوب بين إزالة الضوضاء والتحسين وإعادة الأخذ، مع أداء متفوقة لكن تفتقر إلى أساس نظري.

طرق تقدير MAP

بدأت الأعمال الحديثة تركز على تقدير MAP تحت الأولويات الانتشارية، لكنها تقتصر في الغالب على المسائل العكسية الخطية.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. التوحيد النظري: يوفر LMAPS تفسيراً احتمالياً موحداً لطرق الانتشار القائمة على التحسين
  2. تحسن الأداء: تحقيق تحسن PSNR كبير في مهام متعددة، خاصة في المهام غير الخطية وغير القابلة للتفاضل الصعبة
  3. الكفاءة الحسابية: أداء حسابية أفضل مقارنة بالطرق الموجودة

القيود

  1. التقارب: قد لا تتقارب سلسلة MAP المحلية إلى MAP العام
  2. التنوع: قد ينتج LMAPS تنوعاً أقل في المخرجات مقارنة بـ DPS
  3. حساسية المعاملات الفائقة: الحاجة إلى تعديل المعاملات k1k_1 و k2k_2 لمهام مختلفة

الاتجاهات المستقبلية

تشير الورقة إلى أن الدور الحاسم لـ MAP العام في الاستدلال البايزي تم تجاهله إلى حد كبير، وأن حل MAP العام بكفاءة تحت الأولويات الانتشارية لا يزال تحدياً مفتوحاً. على الرغم من أن MAP قد يقلل تنوع المخرجات من خلال التركيز على وضع واحد، إلا أنه يوفر حتمية أعلى وتوافقاً أفضل مع البيانات المرصودة.

التقييم المتعمق

المزايا

  1. مساهمة نظرية كبيرة: توفير تفسير احتمالي واضح لطرق الانتشار القائمة على التحسين للمرة الأولى
  2. تجارب شاملة: تغطي 10 مهام استرجاع صور و 3 مسائل عكسية علمية، مع إعداد تجريبي كامل
  3. تحسن أداء واضح: تحقيق تحسن كبير بمقدار 2dB أو أكثر في مهام صعبة متعددة
  4. طريقة عملية: توفير استراتيجيات فعالة للتعامل مع المشغلات غير القابلة للتفاضل
  5. كتابة واضحة: التحليل النظري وشرح الطريقة واضحان جداً

أوجه القصور

  1. عمق التحليل النظري: على الرغم من توفير تفسير احتمالي، فإن التحليل المتعلق بالتقارب والضمانات النظرية نسبياً محدود
  2. تعقيد المعاملات الفائقة: الحاجة إلى تعديل معاملات متعددة لكل مهمة قد تؤثر على قابلية التعميم
  3. التكلفة الحسابية: على الرغم من كفاءتها مقارنة ببعض الطرق، لا تزال تتطلب تحديثات تدرج متعددة في كل خطوة زمنية
  4. قيود التقييم: التركيز الأساسي على جودة الإعادة، مع تقييم غير كافٍ لقياس عدم اليقين

القيمة التأثيرية

  1. القيمة الأكاديمية: توفير منظور نظري جديد لتطبيق نماذج الانتشار في حل المسائل العكسية
  2. القيمة العملية: تطبيق مباشر في مجالات استرجاع الصور والحسابات العلمية
  3. الإلهام: قد تلهم المزيد من الأبحاث حول تقدير MAP لنماذج الانتشار

السيناريوهات المناسبة

  • المسائل العكسية التي تتطلب إعادة بناء عالية الجودة بدلاً من التنوع
  • المهام التي تتضمن مشغلات أمامية غير قابلة للتفاضل (مثل استعادة JPEG والتكميم)
  • حل المسائل العكسية في الحسابات العلمية
  • التطبيقات في الوقت الفعلي التي لها متطلبات معينة للكفاءة الحسابية

المراجع

تستشهد الورقة بأعمال مهمة في مجالات نماذج الانتشار وحل المسائل العكسية والاستدلال البايزي، بما في ذلك الأوراق الأصلية للطرق الرئيسية مثل DPS و DAPS و TMPD وغيرها، مما يوفر أساساً أدبياً جيداً للأبحاث ذات الصلة.