Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
تعتمد نماذج التوليد إزالة الضوضاء الحالية على حل معادلات SDE أو ODE العكسية المنفصلة زمنياً. تحدد هذه الورقة مشكلة طويلة الأمد تم تجاهلها لكنها منتشرة في هذه النماذج: عدم التطابق بين مستويات الضوضاء المحددة مسبقاً والمستويات الفعلية للضوضاء المشفرة في الحالات الوسيطة أثناء عملية الأخذ. يسمي المؤلفون هذا عدم التطابق "انزياح الضوضاء" (noise shift). من خلال التحليل التجريبي، يثبت المؤلفون أن انزياح الضوضاء منتشر على نطاق واسع في نماذج الانتشار الحديثة ويظهر انحيازاً منهجياً، مما يؤدي إلى مشاكل التعميم خارج التوزيع والتحديثات غير الدقيقة لإزالة الضوضاء، مما ينتج عنه نتائج توليد دون المستوى الأمثل. لحل هذه المشكلة، يقترح المؤلفون التوجيه الواعي للضوضاء (NAG)، وهي طريقة تصحيح بسيطة وفعالة توجه بشكل صريح مسارات الأخذ للحفاظ على الاتساق مع جدول الضوضاء المحدد مسبقاً.
حققت نماذج التوليد إزالة الضوضاء مثل نماذج الانتشار ونماذج التدفق نجاحاً ملحوظاً في مهام التوليد البصري مثل تركيب الصور وتوليد الفيديو. المبدأ الأساسي لهذه النماذج هو استعادة العينة المستهدفة بشكل تدريجي من الضوضاء النقية من خلال عملية تكرارية. ومع ذلك، أثناء عملية الأخذ التكرارية، يتراكم النموذج حتماً أخطاء من مصادر متعددة، بما في ذلك:
يكتشف المؤلفون أن أحد المظاهر الرئيسية لهذه الأخطاء المتراكمة هو: قد ينحرف مستوى الضوضاء المشفر بشكل متأصل في الحالات الوسيطة عن الجدول المحدد مسبقاً. هذه الظاهرة المسماة "انزياح الضوضاء" تم تجاهلها طويلاً من قبل المجتمع العلمي، لكنها في الواقع منتشرة على نطاق واسع وجذورها في التأثير الجماعي لمصادر الأخطاء المختلفة.
لمستوى ضوضاء t∈[0,T]، يتم تعريف الاستيفاء العشوائي المستمر في الوقت على النحو التالي:
xt=αtx0+σtϵ
حيث α0=σT=1، αT=σ0=0، αt تناقصي رتيب، σt تصاعدي رتيب.
يمكن اعتبار الخطأ المتراكم e كاضطراب غاوسي إضافي مطبق على xt: x^t=xt+e، حيث e∼N(0,σe2I).
يزيد هذا الاضطراب التباين الفعال من σt2 إلى σt2+σe2، مما يجعل الحالة المضطربة تتصرف كما لو تم أخذ عينات منها عند مستوى ضوضاء منزاح t′=t+δ:
σt+δ2=σt2+σe2
الملاحظة 1: عندما يكون تباين الخطأ σe2 صغيراً، يكون التقريب من الدرجة الأولى للانزياح δ هو:
δ≈σ˙tσt2+σe2−σt
اتباع استراتيجية تدريب CFG: إسقاط عشوائي لشرط الضوضاء t باحتمالية ثابتة أثناء التدريب، مما يسمح للنموذج بمشاركة الأوزان بين الأهداف الشرطية وغير الشرطية.
يأمل المؤلفون أن يجذب هذا العمل انتباه الباحثين إلى مشكلة عدم التطابق بين التدريب والاستدلال المنتشرة على نطاق واسع في التوليد إزالة الضوضاء، مما يعزز اتجاهات البحث التالية:
التحليل النظري أو التجريبي لمشكلة انزياح الضوضاء
بناء نماذج توليد قوية تجاه الانزياح في مرحلة الاستدلال
تستشهد الورقة بأعمال مهمة في المجالات ذات الصلة بما في ذلك نماذج الانتشار، نماذج التدفق، وتقنيات التوجيه:
Ho et al. (2020): ورقة DDPM الأصلية
Peebles & Xie (2023): معمارية DiT
Ma et al. (2024): معمارية SiT
Ho & Salimans (2021): التوجيه بدون مصنف
Dhariwal & Nichol (2021): التوجيه المستند إلى المصنف
التقييم الشامل: هذه ورقة بحثية عالية الجودة تحدد مشكلة مهمة لكن متجاهلة في نماذج التوليد إزالة الضوضاء، وتقترح حلاً بسيطاً وفعالاً، وتتحقق من فعالية وعمومية الطريقة من خلال تجارب شاملة. يتمتع هذا العمل بقيمة أكاديمية وعملية مهمة لمجال نماذج الانتشار.