2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic

تخفيف انزياح الضوضاء لنماذج التوليد إزالة الضوضاء عبر التوجيه الواعي للضوضاء

المعلومات الأساسية

  • معرّف الورقة: 2510.12497
  • العنوان: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
  • المؤلفون: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 14 أكتوبر 2025 (نسخة أولية من arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.12497

الملخص

تعتمد نماذج التوليد إزالة الضوضاء الحالية على حل معادلات SDE أو ODE العكسية المنفصلة زمنياً. تحدد هذه الورقة مشكلة طويلة الأمد تم تجاهلها لكنها منتشرة في هذه النماذج: عدم التطابق بين مستويات الضوضاء المحددة مسبقاً والمستويات الفعلية للضوضاء المشفرة في الحالات الوسيطة أثناء عملية الأخذ. يسمي المؤلفون هذا عدم التطابق "انزياح الضوضاء" (noise shift). من خلال التحليل التجريبي، يثبت المؤلفون أن انزياح الضوضاء منتشر على نطاق واسع في نماذج الانتشار الحديثة ويظهر انحيازاً منهجياً، مما يؤدي إلى مشاكل التعميم خارج التوزيع والتحديثات غير الدقيقة لإزالة الضوضاء، مما ينتج عنه نتائج توليد دون المستوى الأمثل. لحل هذه المشكلة، يقترح المؤلفون التوجيه الواعي للضوضاء (NAG)، وهي طريقة تصحيح بسيطة وفعالة توجه بشكل صريح مسارات الأخذ للحفاظ على الاتساق مع جدول الضوضاء المحدد مسبقاً.

الخلفية البحثية والدافع

تحديد المشكلة

حققت نماذج التوليد إزالة الضوضاء مثل نماذج الانتشار ونماذج التدفق نجاحاً ملحوظاً في مهام التوليد البصري مثل تركيب الصور وتوليد الفيديو. المبدأ الأساسي لهذه النماذج هو استعادة العينة المستهدفة بشكل تدريجي من الضوضاء النقية من خلال عملية تكرارية. ومع ذلك، أثناء عملية الأخذ التكرارية، يتراكم النموذج حتماً أخطاء من مصادر متعددة، بما في ذلك:

  • التقريب غير الكامل للشبكة
  • أخطاء التقطيع في التكامل العددي
  • عوامل عشوائية أخرى

المشكلة الأساسية

يكتشف المؤلفون أن أحد المظاهر الرئيسية لهذه الأخطاء المتراكمة هو: قد ينحرف مستوى الضوضاء المشفر بشكل متأصل في الحالات الوسيطة عن الجدول المحدد مسبقاً. هذه الظاهرة المسماة "انزياح الضوضاء" تم تجاهلها طويلاً من قبل المجتمع العلمي، لكنها في الواقع منتشرة على نطاق واسع وجذورها في التأثير الجماعي لمصادر الأخطاء المختلفة.

أهمية المشكلة

يؤدي انزياح الضوضاء إلى عدم تطابق أساسي في شبكة إزالة الضوضاء بين التدريب والاستدلال، والذي يتجلى في:

  1. مشاكل التعميم خارج التوزيع: يتم تطبيق النموذج المدرب على حالات وسيطة منزاحة
  2. عمليات إزالة ضوضاء دون المستوى الأمثل: استخدام معاملات محددة مسبقاً غير دقيقة لحساب الحالة التالية

المساهمات الأساسية

  1. تحديد مشكلة انزياح الضوضاء: تحديد منهجي وتحليل لأول مرة لمشكلة انزياح الضوضاء المنتشرة على نطاق واسع والمتجاهلة طويلاً في نماذج التوليد إزالة الضوضاء
  2. اقتراح طريقة NAG: تصميم طريقة التوجيه الواعي للضوضاء (NAG) لتخفيف مشكلة انزياح الضوضاء
  3. تطوير متغير بدون مصنف: اقتراح متغير بدون مصنف من NAG من خلال تدريب مشترك للنماذج الشرطية وغير الشرطية للضوضاء باستخدام dropout شرطي للضوضاء
  4. التحقق التجريبي الشامل: التحقق من فعالية وعمومية NAG على مهام توليد ImageNet والضبط الدقيق الخاضع للإشراف

شرح الطريقة

تشكيل المشكلة

العملية الأمامية

لمستوى ضوضاء t[0,T]t \in [0,T]، يتم تعريف الاستيفاء العشوائي المستمر في الوقت على النحو التالي: xt=αtx0+σtϵx_t = \alpha_t x_0 + \sigma_t \epsilon حيث α0=σT=1\alpha_0 = \sigma_T = 1، αT=σ0=0\alpha_T = \sigma_0 = 0، αt\alpha_t تناقصي رتيب، σt\sigma_t تصاعدي رتيب.

الوصف الرياضي لانزياح الضوضاء

يمكن اعتبار الخطأ المتراكم ee كاضطراب غاوسي إضافي مطبق على xtx_t: x^t=xt+e\hat{x}_t = x_t + e، حيث eN(0,σe2I)e \sim \mathcal{N}(0, \sigma_e^2 I).

يزيد هذا الاضطراب التباين الفعال من σt2\sigma_t^2 إلى σt2+σe2\sigma_t^2 + \sigma_e^2، مما يجعل الحالة المضطربة تتصرف كما لو تم أخذ عينات منها عند مستوى ضوضاء منزاح t=t+δt' = t + \delta: σt+δ2=σt2+σe2\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2

الملاحظة 1: عندما يكون تباين الخطأ σe2\sigma_e^2 صغيراً، يكون التقريب من الدرجة الأولى للانزياح δ\delta هو: δσt2+σe2σtσ˙t\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}

التوجيه الواعي للضوضاء (NAG)

NAG المستند إلى المصنف

يمكن كتابة درجة الضوضاء الشرطية على النحو التالي: s(xt)=xlogpt(xt)=xlogpt(x)+xlogpt(tx)s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)

من خلال مقدر خلفي خارجي gϕg_\phi يوفر إشارة توجيه loggϕ(tx)\nabla \log g_\phi(t|x).

NAG بدون مصنف

باستخدام pt(tx)pt(xt)/pt(x)p_t(t|x) \propto p_t(x|t)/p_t(x)، استخدام مزج الدرجات لتقريب تدرج متنبئ الضوضاء الضمني: swnag(xt)=(wnag+1)s(xt)wnags(x)s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)

حيث wnagw_{nag} هو معامل التوجيه لـ NAG.

استراتيجية التنفيذ

اتباع استراتيجية تدريب CFG: إسقاط عشوائي لشرط الضوضاء tt باحتمالية ثابتة أثناء التدريب، مما يسمح للنموذج بمشاركة الأوزان بين الأهداف الشرطية وغير الشرطية.

نقاط الابتكار التقني

  1. استهداف مباشر لانزياح الضوضاء: يستهدف NAG بشكل مباشر مشكلة عدم تطابق مستوى الضوضاء، بدلاً من التخفيف غير المباشر
  2. متعامد مع CFG: يقدم NAG محور شرط مستوى الضوضاء المتعامد مع محور الشرط في CFG، مما يوفر تحكماً متكاملاً
  3. بسيط وفعال: لا يتطلب مصنفاً خارجياً، يمكن دمجه مباشرة في النماذج الموجودة

إعداد التجارب

مجموعات البيانات

  • ImageNet 256×256: استخدام VAE Stable Diffusion المدرب مسبقاً للحصول على متجهات كامنة 32×32×4
  • مجموعات بيانات الضبط الدقيق الخاضع للإشراف: Food101، SUN397، DF20-Mini، Caltech101، CUB-200-2011، ArtBench-10، Stanford Cars

معمارية النموذج

  • DiT (Diffusion Transformers): متغيرات S/2، B/2، L/2، XL/2
  • SiT (Scalable Interpolant Transformers): متغيرات التكوين نفسه

مقاييس التقييم

  • FID (Fréchet Inception Distance): مقياس التقييم الرئيسي
  • الدقة والاستدعاء: للتقييم على النتائج المتقاربة

تفاصيل التنفيذ

  • خطوات الأخذ: DiT يستخدم 250 خطوة أخذ DDPM، SiT يستخدم 250 خطوة أخذ SDE-Euler-Maruyama
  • أوزان التوجيه: wnag=3.0w_{nag} = 3.0 (بدون CFG)، wnag=2.0w_{nag} = 2.0 (مع CFG)
  • dropout الضوضاء: احتمالية 10% لإسقاط شرط الضوضاء أثناء التدريب

نتائج التجارب

النتائج الرئيسية

توليد ImageNet

الجدول 1: نتائج المقارنة للنماذج المتقاربة

النموذجعدد الحقبالتوليد بدون CFGالتوليد مع CFG
DiT-XL/21400FID: 9.62FID: 2.27
+NAG10+(1400*)FID: 2.59FID: 2.14
SiT-XL/21400FID: 8.61FID: 2.06
+NAG10+(1400*)FID: 2.26FID: 1.72

النتائج الرئيسية:

  • يمكن لـ NAG وحده تحقيق جودة توليد قريبة من توجيه CFG
  • عند الدمج مع CFG، يستمر NAG في توفير تحسينات إضافية
  • يتطلب فقط 10 حقب إضافية من الضبط الدقيق (حوالي 0.7% من تكلفة التدريب المسبق) لتفعيل NAG

نتائج الضبط الدقيق الخاضع للإشراف

الجدول 2: مقارنة FID لمهام الضبط الدقيق

الطريقةFoodSUNCaltechCUBStanford CarDF-20MArtBenchمتوسط FID
الضبط الدقيق (بدون CFG)16.0421.4131.349.8111.2917.9222.7618.65
+NAG11.1814.9524.325.685.9214.7919.2213.72
الضبط الدقيق (مع CFG)10.9314.1323.845.376.3215.2919.9413.69
+NAG5.788.8121.873.523.9112.5515.6910.31

تأثير تخفيف انزياح الضوضاء

يظهر التحليل التجريبي من خلال مقدر الضوضاء الخارجي gϕg_\phi:

  • انزياح الضوضاء منتشر على نطاق واسع في نماذج الانتشار الحديثة
  • يتجلى كانحياز منهجي نحو مستويات ضوضاء أكبر
  • يقلل NAG بشكل فعال هذا الانزياح، خاصة في النطاق حيث نسبة الإشارة إلى الضوضاء أكبر من 1

تجارب الاستئصال

  • حساسية وزن التوجيه: wnagw_{nag} يظهر أداء مستقرة في النطاق 2.0-4.0
  • تأثير خطوات الأخذ: NAG فعال عند خطوات أخذ مختلفة
  • عمومية المعمارية: يظهر تحسينات متسقة على معماريات DiT و SiT

الأعمال ذات الصلة

نماذج التوليد إزالة الضوضاء

  • نماذج الانتشار: DDPM، DiT وغيرها تركز على جداول الضوضاء والأهداف التدريبية ومعماريات النماذج
  • نماذج التدفق: طرق Flow Matching وغيرها
  • تسريع الأخذ: محللات من رتبة أعلى، نمذجة فترات محسنة وغيرها

تقنيات التوجيه

  • التوجيه المستند إلى المصنف: استخدام مصنف خارجي للتوليد الشرطي
  • التوجيه بدون مصنف (CFG): تحقيق التوجيه من خلال مزج النماذج الشرطية وغير الشرطية
  • التوجيه المجال (DoG): طريقة توجيه مصممة خصيصاً لسيناريوهات الضبط الدقيق

NAG في هذه الورقة هي أول طريقة تستخدم بشكل صريح مستوى الضوضاء نفسه كإشارة توجيه، مما يعزز بشكل مباشر المحاذاة مع شرط الضوضاء المتوقع.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. انزياح الضوضاء منتشر على نطاق واسع: يتم اكتشاف عدم تطابق التدريب والاستدلال على نطاق واسع في نماذج التوليد إزالة الضوضاء الحديثة
  2. NAG يخفف المشكلة بشكل فعال: من خلال استهداف مباشر لعدم تطابق مستوى الضوضاء، يحسن بشكل كبير جودة التوليد
  3. قوة عمومية الطريقة: يظهر تحسينات متسقة عبر معماريات وحالات استخدام وطرق أساسية مختلفة

القيود

  1. الاعتماد على مقدر الضوضاء: يعتمد التحليل التجريبي على دقة مقدر الضوضاء الخارجي
  2. تبسيط التحليل النظري: قد لا يتمكن التحليل النظري المستند إلى افتراضات مبسطة من التقاط التعقيد الكامل للواقع
  3. النفقات الحسابية: يتطلب تدريب فرع غير شرطي إضافي

الاتجاهات المستقبلية

يأمل المؤلفون أن يجذب هذا العمل انتباه الباحثين إلى مشكلة عدم التطابق بين التدريب والاستدلال المنتشرة على نطاق واسع في التوليد إزالة الضوضاء، مما يعزز اتجاهات البحث التالية:

  • التحليل النظري أو التجريبي لمشكلة انزياح الضوضاء
  • بناء نماذج توليد قوية تجاه الانزياح في مرحلة الاستدلال
  • استكشاف حدود التوليد عالي الجودة
  • طرق أخذ أسرع

التقييم المتعمق

المزايا

  1. ابتكار تحديد المشكلة: تحديد منهجي وتحليل لأول مرة لمشكلة انزياح الضوضاء المنتشرة على نطاق واسع والمتجاهلة
  2. طريقة بسيطة وفعالة: تصميم NAG بسيط، سهل الدمج في النماذج الموجودة، وذو تأثير ملحوظ
  3. تجارب شاملة: تغطي معماريات وحالات استخدام ومهام متعددة، مما يتحقق من عمومية الطريقة
  4. دعم نظري: توفير تحليل رياضي وصيغ تقريبية لانزياح الضوضاء
  5. قيمة عملية عالية: يمكن تطبيقها مباشرة لتحسين أداء النماذج الموجودة بشكل كبير

أوجه القصور

  1. قيود التحليل النظري: مستند إلى افتراضات مبسطة، قد لا يشرح بشكل كامل الحالات المعقدة الفعلية
  2. مشكلة مقدر الضوضاء: يعتمد التحليل التجريبي على مقدر خارجي، قد يدخل أخطاء إضافية
  3. التكلفة الحسابية: يتطلب تدريب فرع غير شرطي إضافي، مما يزيد من تكاليف التدريب والاستدلال
  4. نطاق التطبيق: تم التحقق بشكل أساسي على مهام التوليد البصري، وتطبيقيته على الأنماط الأخرى غير معروفة

التأثير

  1. المساهمة الأكاديمية: الكشف عن مشكلة مهمة في نماذج التوليد إزالة الضوضاء، توفير اتجاه بحثي جديد للمجال
  2. القيمة العملية: يمكن تطبيقها مباشرة لتحسين أداء النماذج الموجودة، ذات قيمة عملية قوية
  3. عمومية الطريقة: متعامدة ومتكاملة مع طرق التوجيه الموجودة، ذات قابلية تطبيق واسعة

السيناريوهات المناسبة

  • مهام التوليد الصور على نطاق واسع
  • الضبط الدقيق الخاضع للإشراف للنماذج المدربة مسبقاً
  • سيناريوهات التطبيق التي تتطلب توليداً عالي الجودة
  • البيئات ذات الموارد الحسابية الكافية نسبياً

المراجع

تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة بما في ذلك نماذج الانتشار، نماذج التدفق، وتقنيات التوجيه:

  • Ho et al. (2020): ورقة DDPM الأصلية
  • Peebles & Xie (2023): معمارية DiT
  • Ma et al. (2024): معمارية SiT
  • Ho & Salimans (2021): التوجيه بدون مصنف
  • Dhariwal & Nichol (2021): التوجيه المستند إلى المصنف

التقييم الشامل: هذه ورقة بحثية عالية الجودة تحدد مشكلة مهمة لكن متجاهلة في نماذج التوليد إزالة الضوضاء، وتقترح حلاً بسيطاً وفعالاً، وتتحقق من فعالية وعمومية الطريقة من خلال تجارب شاملة. يتمتع هذا العمل بقيمة أكاديمية وعملية مهمة لمجال نماذج الانتشار.