2025-11-23T07:10:16.507917

CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models

Rychkovskiy, GPT-5

We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.

academic

CADE 2.5 - ZeResFDG: التوجيه المفكك للتردد والمعاد تحجيمه والمسقط الصفري لنماذج الانتشار الكامنة SD/SDXL

المعلومات الأساسية

معرّف الورقة: 2510.12954
العنوان: CADE 2.5 - ZeResFDG: التوجيه المفكك للتردد والمعاد تحجيمه والمسقط الصفري لنماذج الانتشار الكامنة SD/SDXL
المؤلفون: Denis Rychkovskiy ("DZRobo"، باحث مستقل)، GPT-5 (متعاون ذكاء اصطناعي والمؤلف المشارك، OpenAI)
التصنيف: cs.CV (الرئيسي)، cs.LG (الثانوي)
تاريخ النشر: 11 أكتوبر 2025
رابط الورقة: https://arxiv.org/abs/2510.12954

الملخص

تقدم هذه الورقة CADE 2.5 (محسّن التفاصيل التكيفي Comfy)، وهو مكدس توجيه على مستوى أخذ العينات لنماذج الانتشار الكامنة SD/SDXL. يوحد الوحدة الأساسية ZeResFDG ثلاث تقنيات رئيسية: (1) التوجيه المفكك للتردد، الذي يعيد ترجيح المكونات منخفضة التردد والعالية للإشارة الموجهة؛ (2) إعادة تحجيم الطاقة، التي تطابق حجم التنبؤات الموجهة لكل عينة مع الفرع الموجب؛ (3) الإسقاط الصفري، الذي يزيل المكونات الموازية للاتجاه غير المشروط. يتبدل آلية EMA الطيفية الخفيفة والتأخير بين الوضع المحافظ ووضع البحث عن التفاصيل أثناء تبلور البنية في عملية أخذ العينات. تحسّن الطريقة الوضوح واتباع المطالب والتحكم في الأخطاء عند مقاييس التوجيه المتوسطة، دون الحاجة إلى إعادة التدريب.

خلفية البحث والدافع

المشكلة الأساسية

على الرغم من أن نماذج الانتشار الكامنة (مثل SD/SDXL) قادرة على توليد صور عالية الدقة، إلا أنها تعاني من تدهور الجودة عند مقاييس التوجيه الحر من المصنف (CFG) الكبيرة، والتي تظهر كإشباع مفرط أو انزياح لوني أو أخطاء نسيجية. يؤدي خفض CFG لتجنب هذه التأثيرات غالباً إلى التضحية بالوضوح واتباع المطالب.

أهمية المشكلة

تؤثر هذه المشكلة بشكل مباشر على جودة تأثير نماذج الانتشار في التطبيقات العملية. يحتاج المستخدمون إلى المقارنة بين وضوح الصورة/اتباع المطالب والتحكم في الأخطاء، مما يحد من فائدة النموذج.

قيود الطرق الموجودة

تشمل الحلول الموجودة:

التوجيه القائم على الانتباه (SAG/PAG)
التوجيه الذي يراعي الجدولة أو تحديد النطاق
الطرق الاستكشافية لإعادة التحجيم المستخدمة على نطاق واسع في الممارسة العملية

على الرغم من أن هذه الطرق لها بعض التأثير، إلا أنها تفتقر إلى إطار عمل موحد لمعالجة معالجة المكونات الترددية ومطابقة الطاقة والانجراف الاتجاهي في نفس الوقت.

دافع البحث

تهدف هذه الورقة إلى توفير حل خفيف الوزن على جانب أخذ العينات من خلال إعادة تشكيل إشارة التوجيه نفسها لمعالجة المشاكل المذكورة أعلاه، مع الحفاظ على خاصية التدريب الحر.

المساهمات الأساسية

اقتراح إطار عمل ZeResFDG الموحد: يجمع بين ثلاث تقنيات - فك التردد وإعادة تحجيم الطاقة والإسقاط الصفري - بشكل عضوي
تصميم آلية تبديل الوضع التكيفي: تبديل ديناميكي بين الوضع المحافظ ووضع البحث عن التفاصيل بناءً على EMA الطيفي والتأخير
تطوير مثبت QSilk Micrograin: مثبت وقت الاستدلال خالي من التدريب يحسّن المتانة وينتج نسيجاً دقيقاً طبيعياً عند الدقة العالية
تنفيذ غلاف أخذ عينات قابل للإدراج: يمكن دمجه في خطوط أنابيب SD/SDXL الموجودة دون إعادة تدريب
التحقق من التوافق عبر المعاملات: الطريقة قابلة للتطبيق على معاملات مختلفة (مثل معاملات السرعة)

شرح الطريقة

تعريف المهمة

بالنظر إلى التنبؤ المشروط yc والتنبؤ غير المشروط yu، يشكل CFG القياسي ycfg = yu + s(yc - yu)، حيث s > 0 هو مقياس التوجيه. الهدف هو تقليل الأخطاء عند مقاييس CFG العالية مع الحفاظ على اتباع المطالب.

معمارية النموذج

1. التوجيه المفكك للتردد (FDG)

يتم تحليل التوجيه الأصلي Δ = yc - yu إلى مكونات منخفضة التردد والعالية من خلال مرشح غاوسي منخفض التمرير Gσ:

Δℓ = Gσ * Δ (المكون منخفض التردد)
Δh = Δ - Δℓ (المكون عالي التردد)
إعادة الترجيح: Δ̃ = λℓΔℓ + λhΔh، حيث λℓ ∈ 0,1، λh ≳ 1

2. إعادة تحجيم الطاقة (RescaleCFG)

بعد تشكيل ycfg = yu + sΔ̃، يتم إعادة التحجيم لمطابقة الانحراف المعياري لكل عينة من yc:

yres = α · Rescale(ycfg, std(yc)) + (1-α)ycfg

حيث α ∈ 0,1 هو معامل المزج.

3. الإسقاط الصفري (CFGZero)

لقمع التسرب على طول الاتجاه غير المشروط، يتم الحساب:

α∥ = ⟨yc, yu⟩/⟨yu, yu⟩
استخدام البقايا r = yc - α∥yu كإشارة توجيه

4. تبديل الوضع التكيفي

مراقبة نسبة التردد العالي rHF = ∥Δh∥²/(∥Δℓ∥² + ∥Δh∥²) وتتبع EMA ρ. التبديل بين الوضع المحافظ (CFGZeroFD) ووضع البحث عن التفاصيل (RescaleFDG) من خلال عتبتين (τlo, τhi) وآلية التأخير.

مثبت QSilk Micrograin

1. تثبيت الكمية لكل خطوة (QClamp)

بعد كل خطوة إزالة ضوضاء، يتم تطبيق تثبيت كمية لكل عينة على موتر إزالة الضوضاء، مما يقيد القيم ضمن نطاق الكمية (0.1%، 99.9%).

2. حقن التفاصيل الدقيقة في المراحل اللاحقة

في المراحل اللاحقة، يتم إضافة بقايا عالية التردد صغيرة:

x'img = ximg + α(t)gedge gdepth(ximg - Gσ(ximg))

حيث gedge و gdepth هما دوال البوابة الحدية والعمق على التوالي.

نقاط الابتكار التقني

تصميم الإطار الموحد: يجمع بين ثلاث تقنيات تحسين توجيه مختلفة بشكل عضوي في إطار عمل واحد
آلية التبديل التكيفي: تبديل وضع ذكي بناءً على التحليل الطيفي، يتكيف مع التغييرات الهيكلية أثناء عملية أخذ العينات
خاصية التدريب الحر: جميع المكونات يتم تطبيقها في وقت الاستدلال، بدون إعادة تدريب النموذج
المعالجة الحساسة للتردد: معالجة صريحة للمكونات الترددية المختلفة، حماية البنية العامة مع تحسين التفاصيل

إعداد التجارب

مجموعة البيانات

تستخدم التجارب نموذج SDXL بدقة 672×944، مع دقة الإخراج النهائي 3688×5192. تتضمن الاختبارات نماذج SDXL مختلفة موجهة للصور الفوتوغرافية والرسوم المتحركة.

مقاييس التقييم

التقييم الرئيسي من خلال التقييم النوعي، مع التركيز على:

جودة الصور الشخصية (العيون والشعر ولون البشرة)
تفاصيل اليد (الأصابع والأظافر)
النسيج عالي التردد (الملمس الدقيق للجلد البشري)

إعداد التجارب

أخذ العينات: Euler (رسوم متحركة) / UniPC (صور فوتوغرافية)
عدد الخطوات: 25
CFG: 4.5
قوة إزالة الضوضاء: 0.65

تفاصيل التنفيذ

المعاملات الافتراضية:

σ = 1.0 (فصل غاوسي)
(λℓ, λh) = (0.6, 1.3)
مزج إعادة التحجيم α = 0.7
EMA β = 0.8
عتبات التأخير (τlo, τhi) = (0.45, 0.60)

نتائج التجارب

النتائج الرئيسية

تُظهر التجارب تحسينات CADE 2.5 في عدة جوانب:

صور شخصية بأسلوب الرسوم المتحركة: خطوط أوضح، تأثيرات لونية وإضاءة أفضل، تحسن كبير في تفاصيل العيون والأنف والشفاه، بدون رجفة
صور شخصية بأسلوب فوتوغرافي: الحفاظ على النبرة العامة مع تحسين التفاصيل الدقيقة، تقليل أخطاء العيون، تفاصيل الشعر أكثر ثراءً، لون البشرة والملمس الدقيق أكثر طبيعية
التفاصيل عالية التردد: تحسن كبير في التفاصيل الدقيقة في مناطق الشفاه والأنف والرقبة

تحليل الحالات

توفر الورقة مقارنات بصرية مفصلة توضح أن ZeResFDG يحسّن بشكل كبير جودة التفاصيل الدقيقة ويقلل من أخطاء CFG العالية النموذجية (الإشباع المفرط وتأثيرات الهالة) مع الحفاظ على التكوين والنبرة العامة.

النتائج التجريبية

الطريقة تحسّن بشكل فعال الوضوح واتباع المطالب عند مقاييس التوجيه المتوسطة
تتحكم بنجاح في الأخطاء، خاصة مشاكل الإشباع المفرط والهالة
تنتج ملمساً دقيقاً طبيعياً في الإخراج عالي الدقة

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

التحكم الموجه بالانتباه: طرق مثل SAG/PAG تحسّن تأثير التوجيه من خلال معالجة آليات الانتباه
التوجيه الذي يراعي الجدولة: تطبيق التوجيه ضمن نطاق محدود لقمع الأخطاء
الطرق الاستكشافية لإعادة التحجيم: طرق مطابقة الطاقة المستخدمة على نطاق واسع في الممارسة العملية

العلاقة مع الأعمال ذات الصلة

تشير الورقة بشكل خاص إلى التكامل مع إطار عمل التوجيه الإسقاطي التكيفي (APG) من Sadat وآخرين (2025). يقسم APG التوجيه الحر من المصنف إلى مكونات متوازية وعمودية، بينما توسع هذه الورقة هذا المنظور بإضافة إعادة التحجيم والإسقاط الصفري المتخصص لـ SD/SDXL.

المزايا النسبية

توفير حل أكثر توحداً
دمج تحليل المجال الترددي
تنفيذ تبديل وضع تكيفي
الحفاظ على خاصية التدريب الحر

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ينجح CADE 2.5 في حل مشكلة تدهور الجودة في نماذج SD/SDXL عند مقاييس CFG العالية من خلال إطار عمل ZeResFDG، مما يحسّن بشكل كبير جودة الصورة مع الحفاظ على خاصية التدريب الحر.

القيود

نطاق التقييم محدود: يعترف المؤلفون بأن التقييم يركز بشكل أساسي على النوعي، مع نقص المعايير الكمية الشاملة
حساسية المعاملات: تتضمن الطريقة عدة معاملات فائقة قد تتطلب ضبطاً لسيناريوهات مختلفة
التكلفة الحسابية: على الرغم من الادعاء بأنها خفيفة الوزن، فإن فك التردد وتبديل الأوضاع المتعددة لا يزالان يتطلبان بعض التكلفة الحسابية

الاتجاهات المستقبلية

تقييم كمي أكثر شمولاً ودراسات الاستئصال
التكيف مع معماريات نماذج انتشار أخرى
تطوير آليات الضبط التلقائي للمعاملات
مقارنة أعمق مع طرق تحسين التوجيه الأخرى

التقييم المتعمق

المزايا

الابتكار الطريقة قوي: يجمع بين ثلاث تقنيات تحسين مختلفة في إطار عمل واحد، بتصميم ذكي
القيمة العملية عالية: خاصية التدريب الحر والقابلية للإدراج تجعلها سهلة النشر
تفاصيل تقنية كاملة: توفير وصف خوارزمي مفصل وتفاصيل التنفيذ
التأثير البصري واضح: من الأمثلة المعروضة، التحسينات واضحة

أوجه القصور

التقييم غير شامل: نقص المقاييس الكمية والتحقق على مجموعات بيانات كبيرة
التحليل النظري محدود: نقص التفسير العميق لسبب فعالية هذا الجمع
اعتماد إعداد المعاملات على التجربة: اختيار المعاملات المتعددة يعتمد بشكل أساسي على التجربة
تجارب المقارنة غير كافية: مقارنات مباشرة أقل مع طرق الحالة الفنية الأخرى

التأثير

يحمل هذا العمل أهمية كبيرة لمجال تحسين استدلال نماذج الانتشار:

توفير أفكار جديدة لتحسين التوجيه
توفير أدوات فعالة للتطبيقات العملية
قد يلهم المزيد من طرق التحسين الحرة من التدريب

السيناريوهات المعمول بها

تحسين جودة توليد الصور لنماذج SD/SDXL
الإبداع الفني الذي يتطلب تفاصيل عالية الجودة
تطبيقات توليد الصور التجارية
الباحثون الذين يدرسون آليات التوجيه في نماذج الانتشار

المراجع

تستشهد الورقة بأعمال مهمة في هذا المجال، بما في ذلك:

طرق موجهة بالانتباه مثل SAG/PAG
البحث ذو الصلة بإطار عمل APG
النظرية الأساسية لآليات التوجيه في نماذج الانتشار
تقنيات التحسين المستخدمة على نطاق واسع في الممارسة العملية

التقييم الإجمالي: هذه ورقة هندسية تحسين تقنية قوية جداً. على الرغم من وجود بعض القصور في العمق النظري والشمولية التقييمية، إلا أن قيمتها العملية عالية جداً، وتوفر حلاً تحسيناً فعالاً للتطبيقات العملية لنماذج الانتشار. خاصية التدريب الحر وتأثير التحسين البصري الواضح تمنحها آفاق تطبيق جيدة.