CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models
Rychkovskiy, GPT-5
We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.
academic
CADE 2.5 - ZeResFDG: SD/SDXL লেটেন্ট ডিফিউশন মডেলের জন্য ফ্রিকোয়েন্সি-ডিকাপল্ড, রিস্কেল্ড এবং জিরো-প্রজেক্টেড গাইডেন্স
এই পেপারটি CADE 2.5 (Comfy Adaptive Detail Enhancer) প্রস্তাব করে, যা SD/SDXL লেটেন্ট ডিফিউশন মডেলের জন্য একটি স্যাম্পলার-স্তরের গাইডেন্স স্ট্যাক। মূল মডিউল ZeResFDG তিনটি মূল প্রযুক্তি একীভূত করে: (১) ফ্রিকোয়েন্সি ডিকাপলিং গাইডেন্স, যা গাইডেন্স সিগন্যালের নিম্ন এবং উচ্চ ফ্রিকোয়েন্সি উপাদানগুলিকে পুনরায় ওজন করে; (२) শক্তি পুনঃস্কেলিং, গাইডেড প্রেডিকশনের প্রতি-নমুনা প্রশস্ততাকে ইতিবাচক শাখার সাথে মেলায়; (३) জিরো প্রজেকশন, অনুপ্রস্থ অবস্থার সমান্তরাল উপাদানগুলি সরিয়ে দেয়। হালকা ওজনের স্পেকট্রাল EMA এবং হিস্টেরেসিস মেকানিজম স্যাম্পলিং প্রক্রিয়ার সময় রক্ষণশীল এবং বিস্তারিত-সন্ধানকারী মোডের মধ্যে স্যুইচ করে। এই পদ্ধতি মধ্যম গাইডেন্স স্কেলে স্পষ্টতা, প্রম্পট অনুসরণ এবং নিদর্শন নিয়ন্ত্রণ উন্নত করে, পুনরায় প্রশিক্ষণের প্রয়োজন ছাড়াই।
লেটেন্ট ডিফিউশন মডেল (যেমন SD/SDXL) উচ্চ-বিশ্বস্ততা চিত্র তৈরি করতে পারলেও, বড় ক্লাসিফায়ার-মুক্ত গাইডেন্স (CFG) স্কেলে গুণমান অবনতি ঘটায়, যা অতিরিক্ত স্যাচুরেশন, টোন শিফট বা টেক্সচার নিদর্শন হিসাবে প্রকাশিত হয়। এই প্রভাবগুলি এড়াতে CFG হ্রাস করা প্রায়শই স্পষ্টতা এবং প্রম্পট অনুসরণের ত্যাগ করে।
এই সমস্যা ডিফিউশন মডেলের ব্যবহারিক প্রয়োগে প্রভাব মানকে সরাসরি প্রভাবিত করে। ব্যবহারকারীদের চিত্র স্পষ্টতা/প্রম্পট অনুসরণ এবং নিদর্শন নিয়ন্ত্রণের মধ্যে ভারসাম্য রাখতে হয়, যা মডেলের ব্যবহারযোগ্যতা সীমাবদ্ধ করে।
ব্যবহারে ব্যাপকভাবে ব্যবহৃত পুনঃস্কেলিং হিউরিস্টিক্স
এই পদ্ধতিগুলি কিছু কার্যকারিতা থাকলেও, ফ্রিকোয়েন্সি উপাদান প্রক্রিয়াকরণ, শক্তি মিলান এবং দিকীয় প্রবাহ সমস্যাগুলি একযোগে সমাধান করার জন্য একটি একীভূত কাঠামোর অভাব রয়েছে।
এই পেপারটি প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য বজায় রেখে গাইডেন্স সিগন্যাল নিজেই পুনর্গঠন করে উপরোক্ত সমস্যাগুলি সমাধান করার জন্য একটি সংক্ষিপ্ত স্যাম্পলার-শেষ সমাধান প্রদান করার লক্ষ্য রাখে।
ZeResFDG একীভূত কাঠামো প্রস্তাব: ফ্রিকোয়েন্সি ডিকাপলিং, শক্তি পুনঃস্কেলিং এবং জিরো প্রজেকশনের তিনটি প্রযুক্তিকে জৈবিকভাবে একত্রিত করে
অভিযোজনশীল মোড-স্যুইচিং মেকানিজম ডিজাইন: স্পেকট্রাল EMA এবং হিস্টেরেসিসের উপর ভিত্তি করে রক্ষণশীল/বিস্তারিত-সন্ধানকারী মোডের মধ্যে গতিশীল স্যুইচিং
QSilk Micrograin Stabilizer বিকাশ: প্রশিক্ষণ-মুক্ত অনুমান-সময় স্থিতিশীলকারী যা স্থিতিস্থাপকতা উন্নত করে এবং উচ্চ রেজোলিউশনে প্রাকৃতিক মাইক্রো-টেক্সচার তৈরি করে
প্লাগ-এন্ড-প্লে স্যাম্পলার র্যাপার বাস্তবায়ন: পুনরায় প্রশিক্ষণ ছাড়াই বিদ্যমান SD/SDXL পাইপলাইনে একীভূত করা যায়
ক্রস-প্যারামেট্রাইজেশন সামঞ্জস্য যাচাই: পদ্ধতি বিভিন্ন প্যারামেট্রাইজেশনের জন্য প্রযোজ্য (যেমন বেগ প্যারামেট্রাইজেশন)
শর্তাধীন পূর্বাভাস yc এবং অনুপ্রস্থ পূর্বাভাস yu দেওয়া, মান CFG ফর্মেশন ycfg = yu + s(yc - yu), যেখানে s > 0 গাইডেন্স স্কেল। লক্ষ্য হল প্রম্পট অনুসরণ বজায় রেখে উচ্চ CFG স্কেলে নিদর্শন হ্রাস করা।
উচ্চ ফ্রিকোয়েন্সি অনুপাত rHF = ∥Δh∥²/(∥Δℓ∥² + ∥Δh∥²) পর্যবেক্ষণ করুন এবং EMA ρ ট্র্যাক করুন। দুটি থ্রেশহোল্ড (τlo, τhi) এবং হিস্টেরেসিস মেকানিজমের মাধ্যমে রক্ষণশীল মোড (CFGZeroFD) এবং বিস্তারিত-সন্ধানকারী মোড (RescaleFDG) এর মধ্যে স্যুইচ করুন।
একীভূত কাঠামো ডিজাইন: তিনটি ভিন্ন গাইডেন্স উন্নতি প্রযুক্তিকে একটি একক কাঠামোতে জৈবিকভাবে একত্রিত করে
অভিযোজনশীল স্যুইচিং মেকানিজম: স্পেকট্রাল বিশ্লেষণের উপর ভিত্তি করে বুদ্ধিমান মোড স্যুইচিং, স্যাম্পলিং প্রক্রিয়ার সময় কাঠামোগত পরিবর্তনের সাথে খাপ খায়
প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য: সমস্ত উপাদান অনুমান-সময় প্রয়োগ, মডেল পুনরায় প্রশিক্ষণের প্রয়োজন নেই
ফ্রিকোয়েন্সি-সচেতন প্রক্রিয়াকরণ: বিভিন্ন ফ্রিকোয়েন্সি উপাদানগুলি স্পষ্টভাবে পরিচালনা করে, বৈশ্বিক কাঠামো রক্ষা করার সময় বিস্তারিত বৃদ্ধি করে
পরীক্ষাগুলি SDXL মডেল ব্যবহার করে, রেজোলিউশন ६७२×९४४, চূড়ান্ত আউটপুট রেজোলিউশন ३६८८×५१९२। পরীক্ষায় ফটো-ভিত্তিক এবং অ্যানিমে-ভিত্তিক বিভিন্ন SDXL মডেল অন্তর্ভুক্ত রয়েছে।
পরীক্ষাগুলি একাধিক দিক থেকে CADE 2.5 এর উন্নতি প্রদর্শন করে:
অ্যানিমে-শৈলী পোর্ট্রেট: আরও স্পষ্ট লাইন, উন্নত রঙ এবং আলো প্রভাব, চোখ, নাক, ঠোঁটের বিস্তারিত উল্লেখযোগ্য উন্নতি, কোনও কম্পন নেই
ফটো-শৈলী পোর্ট্রেট: বৈশ্বিক টোন বজায় রেখে মাইক্রো-বিস্তারিত বৃদ্ধি, চোখের নিদর্শন হ্রাস, চুলের বিস্তারিত আরও সমৃদ্ধ, ত্বকের টোন এবং মাইক্রো-টেক্সচার আরও প্রাকৃতিক
উচ্চ-ফ্রিকোয়েন্সি বিস্তারিত: ঠোঁট, নাক, ঘাড় এবং অন্যান্য অঞ্চলে মাইক্রো-বিস্তারিত উল্লেখযোগ্যভাবে বৃদ্ধি পায়
পেপারটি বিস্তারিত ভিজ্যুয়াল তুলনা প্রদান করে, যা দেখায় যে ZeResFDG বৈশ্বিক রচনা এবং টোন বজায় রেখে মাইক্রো-বিস্তারিত গুণমান উল্লেখযোগ্যভাবে উন্নত করে এবং সাধারণ উচ্চ-CFG নিদর্শন (অতিরিক্ত স্যাচুরেশন, হ্যালো প্রভাব) হ্রাস করে।
পেপারটি বিশেষভাবে Sadat এবং অন্যান্য (२०२५) এর অভিযোজনশীল প্রজেকশন গাইডেন্স (APG) কাঠামোর পরিপূরক প্রকৃতি উল্লেখ করে। APG ক্লাসিফায়ার-মুক্ত গাইডেন্সকে সমান্তরাল এবং অর্থোগোনাল উপাদানে বিয়োজিত করে, যখন এই পেপারটি এই দৃষ্টিভঙ্গি প্রসারিত করে, পুনঃস্কেলিং এবং SD/SDXL-এর জন্য বিশেষায়িত জিরো প্রজেকশন শর্ত যোগ করে।
CADE 2.5 সফলভাবে ZeResFDG কাঠামোর মাধ্যমে SD/SDXL মডেলে উচ্চ CFG স্কেলে গুণমান অবনতির সমস্যা সমাধান করে, প্রশিক্ষণ-মুক্ত প্রকৃতি বজায় রেখে চিত্র গুণমান উল্লেখযোগ্যভাবে উন্নত করে।
পেপারটি এই ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
SAG/PAG এবং অন্যান্য মনোযোগ-নির্দেশিত পদ্ধতি
APG কাঠামোর সম্পর্কিত গবেষণা
ডিফিউশন মডেল গাইডেন্স মেকানিজমের ভিত্তি তত্ত্ব
ব্যবহারে ব্যাপকভাবে ব্যবহৃত অপ্টিমাইজেশন কৌশল
সামগ্রিক মূল্যায়ন: এটি একটি প্রযুক্তিগতভাবে শক্তিশালী প্রকৌশল অপ্টিমাইজেশন পেপার, যদিও তাত্ত্বিক গভীরতা এবং মূল্যায়ন সম্পূর্ণতার দিক থেকে কিছু অভাব রয়েছে, তবে এর ব্যবহারিক মূল্য অত্যন্ত বেশি, ডিফিউশন মডেলের ব্যবহারিক প্রয়োগের জন্য কার্যকর উন্নতি সমাধান প্রদান করে। পদ্ধতির প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য এবং উল্লেখযোগ্য ভিজ্যুয়াল উন্নতি প্রভাব এটিকে ভাল প্রয়োগ সম্ভাবনা প্রদান করে।