CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models
Rychkovskiy, GPT-5
We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.
تقدم هذه الورقة CADE 2.5 (محسّن التفاصيل التكيفي Comfy)، وهو مكدس توجيه على مستوى أخذ العينات لنماذج الانتشار الكامنة SD/SDXL. يوحد الوحدة الأساسية ZeResFDG ثلاث تقنيات رئيسية: (1) التوجيه المفكك للتردد، الذي يعيد ترجيح المكونات منخفضة التردد والعالية للإشارة الموجهة؛ (2) إعادة تحجيم الطاقة، التي تطابق حجم التنبؤات الموجهة لكل عينة مع الفرع الموجب؛ (3) الإسقاط الصفري، الذي يزيل المكونات الموازية للاتجاه غير المشروط. يتبدل آلية EMA الطيفية الخفيفة والتأخير بين الوضع المحافظ ووضع البحث عن التفاصيل أثناء تبلور البنية في عملية أخذ العينات. تحسّن الطريقة الوضوح واتباع المطالب والتحكم في الأخطاء عند مقاييس التوجيه المتوسطة، دون الحاجة إلى إعادة التدريب.
على الرغم من أن نماذج الانتشار الكامنة (مثل SD/SDXL) قادرة على توليد صور عالية الدقة، إلا أنها تعاني من تدهور الجودة عند مقاييس التوجيه الحر من المصنف (CFG) الكبيرة، والتي تظهر كإشباع مفرط أو انزياح لوني أو أخطاء نسيجية. يؤدي خفض CFG لتجنب هذه التأثيرات غالباً إلى التضحية بالوضوح واتباع المطالب.
تؤثر هذه المشكلة بشكل مباشر على جودة تأثير نماذج الانتشار في التطبيقات العملية. يحتاج المستخدمون إلى المقارنة بين وضوح الصورة/اتباع المطالب والتحكم في الأخطاء، مما يحد من فائدة النموذج.
الطرق الاستكشافية لإعادة التحجيم المستخدمة على نطاق واسع في الممارسة العملية
على الرغم من أن هذه الطرق لها بعض التأثير، إلا أنها تفتقر إلى إطار عمل موحد لمعالجة معالجة المكونات الترددية ومطابقة الطاقة والانجراف الاتجاهي في نفس الوقت.
تهدف هذه الورقة إلى توفير حل خفيف الوزن على جانب أخذ العينات من خلال إعادة تشكيل إشارة التوجيه نفسها لمعالجة المشاكل المذكورة أعلاه، مع الحفاظ على خاصية التدريب الحر.
بالنظر إلى التنبؤ المشروط yc والتنبؤ غير المشروط yu، يشكل CFG القياسي ycfg = yu + s(yc - yu)، حيث s > 0 هو مقياس التوجيه. الهدف هو تقليل الأخطاء عند مقاييس CFG العالية مع الحفاظ على اتباع المطالب.
مراقبة نسبة التردد العالي rHF = ∥Δh∥²/(∥Δℓ∥² + ∥Δh∥²) وتتبع EMA ρ. التبديل بين الوضع المحافظ (CFGZeroFD) ووضع البحث عن التفاصيل (RescaleFDG) من خلال عتبتين (τlo, τhi) وآلية التأخير.
تستخدم التجارب نموذج SDXL بدقة 672×944، مع دقة الإخراج النهائي 3688×5192. تتضمن الاختبارات نماذج SDXL مختلفة موجهة للصور الفوتوغرافية والرسوم المتحركة.
صور شخصية بأسلوب الرسوم المتحركة: خطوط أوضح، تأثيرات لونية وإضاءة أفضل، تحسن كبير في تفاصيل العيون والأنف والشفاه، بدون رجفة
صور شخصية بأسلوب فوتوغرافي: الحفاظ على النبرة العامة مع تحسين التفاصيل الدقيقة، تقليل أخطاء العيون، تفاصيل الشعر أكثر ثراءً، لون البشرة والملمس الدقيق أكثر طبيعية
التفاصيل عالية التردد: تحسن كبير في التفاصيل الدقيقة في مناطق الشفاه والأنف والرقبة
توفر الورقة مقارنات بصرية مفصلة توضح أن ZeResFDG يحسّن بشكل كبير جودة التفاصيل الدقيقة ويقلل من أخطاء CFG العالية النموذجية (الإشباع المفرط وتأثيرات الهالة) مع الحفاظ على التكوين والنبرة العامة.
تشير الورقة بشكل خاص إلى التكامل مع إطار عمل التوجيه الإسقاطي التكيفي (APG) من Sadat وآخرين (2025). يقسم APG التوجيه الحر من المصنف إلى مكونات متوازية وعمودية، بينما توسع هذه الورقة هذا المنظور بإضافة إعادة التحجيم والإسقاط الصفري المتخصص لـ SD/SDXL.
ينجح CADE 2.5 في حل مشكلة تدهور الجودة في نماذج SD/SDXL عند مقاييس CFG العالية من خلال إطار عمل ZeResFDG، مما يحسّن بشكل كبير جودة الصورة مع الحفاظ على خاصية التدريب الحر.
تستشهد الورقة بأعمال مهمة في هذا المجال، بما في ذلك:
طرق موجهة بالانتباه مثل SAG/PAG
البحث ذو الصلة بإطار عمل APG
النظرية الأساسية لآليات التوجيه في نماذج الانتشار
تقنيات التحسين المستخدمة على نطاق واسع في الممارسة العملية
التقييم الإجمالي: هذه ورقة هندسية تحسين تقنية قوية جداً. على الرغم من وجود بعض القصور في العمق النظري والشمولية التقييمية، إلا أن قيمتها العملية عالية جداً، وتوفر حلاً تحسيناً فعالاً للتطبيقات العملية لنماذج الانتشار. خاصية التدريب الحر وتأثير التحسين البصري الواضح تمنحها آفاق تطبيق جيدة.