2025-11-23T07:10:16.507917

CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models

Rychkovskiy, GPT-5
We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.
academic

CADE 2.5 - ZeResFDG: SD/SDXL লেটেন্ট ডিফিউশন মডেলের জন্য ফ্রিকোয়েন্সি-ডিকাপল্ড, রিস্কেল্ড এবং জিরো-প্রজেক্টেড গাইডেন্স

মৌলিক তথ্য

  • পেপার আইডি: 2510.12954
  • শিরোনাম: CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models
  • লেখক: Denis Rychkovskiy ("DZRobo", স্বাধীন গবেষক), GPT-5 (AI সহযোগী এবং সহ-লেখক, OpenAI)
  • শ্রেণীবিভাগ: cs.CV (প্রধান), cs.LG (গৌণ)
  • প্রকাশনার সময়: ২০২৫ সালের ১১ অক্টোবর
  • পেপার লিংক: https://arxiv.org/abs/2510.12954

সারসংক্ষেপ

এই পেপারটি CADE 2.5 (Comfy Adaptive Detail Enhancer) প্রস্তাব করে, যা SD/SDXL লেটেন্ট ডিফিউশন মডেলের জন্য একটি স্যাম্পলার-স্তরের গাইডেন্স স্ট্যাক। মূল মডিউল ZeResFDG তিনটি মূল প্রযুক্তি একীভূত করে: (১) ফ্রিকোয়েন্সি ডিকাপলিং গাইডেন্স, যা গাইডেন্স সিগন্যালের নিম্ন এবং উচ্চ ফ্রিকোয়েন্সি উপাদানগুলিকে পুনরায় ওজন করে; (२) শক্তি পুনঃস্কেলিং, গাইডেড প্রেডিকশনের প্রতি-নমুনা প্রশস্ততাকে ইতিবাচক শাখার সাথে মেলায়; (३) জিরো প্রজেকশন, অনুপ্রস্থ অবস্থার সমান্তরাল উপাদানগুলি সরিয়ে দেয়। হালকা ওজনের স্পেকট্রাল EMA এবং হিস্টেরেসিস মেকানিজম স্যাম্পলিং প্রক্রিয়ার সময় রক্ষণশীল এবং বিস্তারিত-সন্ধানকারী মোডের মধ্যে স্যুইচ করে। এই পদ্ধতি মধ্যম গাইডেন্স স্কেলে স্পষ্টতা, প্রম্পট অনুসরণ এবং নিদর্শন নিয়ন্ত্রণ উন্নত করে, পুনরায় প্রশিক্ষণের প্রয়োজন ছাড়াই।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

লেটেন্ট ডিফিউশন মডেল (যেমন SD/SDXL) উচ্চ-বিশ্বস্ততা চিত্র তৈরি করতে পারলেও, বড় ক্লাসিফায়ার-মুক্ত গাইডেন্স (CFG) স্কেলে গুণমান অবনতি ঘটায়, যা অতিরিক্ত স্যাচুরেশন, টোন শিফট বা টেক্সচার নিদর্শন হিসাবে প্রকাশিত হয়। এই প্রভাবগুলি এড়াতে CFG হ্রাস করা প্রায়শই স্পষ্টতা এবং প্রম্পট অনুসরণের ত্যাগ করে।

সমস্যার গুরুত্ব

এই সমস্যা ডিফিউশন মডেলের ব্যবহারিক প্রয়োগে প্রভাব মানকে সরাসরি প্রভাবিত করে। ব্যবহারকারীদের চিত্র স্পষ্টতা/প্রম্পট অনুসরণ এবং নিদর্শন নিয়ন্ত্রণের মধ্যে ভারসাম্য রাখতে হয়, যা মডেলের ব্যবহারযোগ্যতা সীমাবদ্ধ করে।

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

বিদ্যমান সমাধানগুলির মধ্যে রয়েছে:

  • মনোযোগ-ভিত্তিক গাইডেন্স (SAG/PAG)
  • সময়সূচী-সচেতন বা ব্যবধান-সীমাবদ্ধ গাইডেন্স
  • ব্যবহারে ব্যাপকভাবে ব্যবহৃত পুনঃস্কেলিং হিউরিস্টিক্স

এই পদ্ধতিগুলি কিছু কার্যকারিতা থাকলেও, ফ্রিকোয়েন্সি উপাদান প্রক্রিয়াকরণ, শক্তি মিলান এবং দিকীয় প্রবাহ সমস্যাগুলি একযোগে সমাধান করার জন্য একটি একীভূত কাঠামোর অভাব রয়েছে।

গবেষণা প্রেরণা

এই পেপারটি প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য বজায় রেখে গাইডেন্স সিগন্যাল নিজেই পুনর্গঠন করে উপরোক্ত সমস্যাগুলি সমাধান করার জন্য একটি সংক্ষিপ্ত স্যাম্পলার-শেষ সমাধান প্রদান করার লক্ষ্য রাখে।

মূল অবদান

  1. ZeResFDG একীভূত কাঠামো প্রস্তাব: ফ্রিকোয়েন্সি ডিকাপলিং, শক্তি পুনঃস্কেলিং এবং জিরো প্রজেকশনের তিনটি প্রযুক্তিকে জৈবিকভাবে একত্রিত করে
  2. অভিযোজনশীল মোড-স্যুইচিং মেকানিজম ডিজাইন: স্পেকট্রাল EMA এবং হিস্টেরেসিসের উপর ভিত্তি করে রক্ষণশীল/বিস্তারিত-সন্ধানকারী মোডের মধ্যে গতিশীল স্যুইচিং
  3. QSilk Micrograin Stabilizer বিকাশ: প্রশিক্ষণ-মুক্ত অনুমান-সময় স্থিতিশীলকারী যা স্থিতিস্থাপকতা উন্নত করে এবং উচ্চ রেজোলিউশনে প্রাকৃতিক মাইক্রো-টেক্সচার তৈরি করে
  4. প্লাগ-এন্ড-প্লে স্যাম্পলার র্যাপার বাস্তবায়ন: পুনরায় প্রশিক্ষণ ছাড়াই বিদ্যমান SD/SDXL পাইপলাইনে একীভূত করা যায়
  5. ক্রস-প্যারামেট্রাইজেশন সামঞ্জস্য যাচাই: পদ্ধতি বিভিন্ন প্যারামেট্রাইজেশনের জন্য প্রযোজ্য (যেমন বেগ প্যারামেট্রাইজেশন)

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

শর্তাধীন পূর্বাভাস yc এবং অনুপ্রস্থ পূর্বাভাস yu দেওয়া, মান CFG ফর্মেশন ycfg = yu + s(yc - yu), যেখানে s > 0 গাইডেন্স স্কেল। লক্ষ্য হল প্রম্পট অনুসরণ বজায় রেখে উচ্চ CFG স্কেলে নিদর্শন হ্রাস করা।

মডেল আর্কিটেকচার

১. ফ্রিকোয়েন্সি ডিকাপলিং গাইডেন্স (FDG)

গাউসিয়ান লো-পাস ফিল্টার Gσ মাধ্যমে মূল গাইডেন্স Δ = yc - yu কে বিয়োজিত করে:

  • Δℓ = Gσ * Δ (নিম্ন ফ্রিকোয়েন্সি উপাদান)
  • Δh = Δ - Δℓ (উচ্চ ফ্রিকোয়েন্সি উপাদান)
  • পুনঃওজন: Δ̃ = λℓΔℓ + λhΔh, যেখানে λℓ ∈ 0,1, λh ≳ 1

२. শক্তি পুনঃস্কেলিং (RescaleCFG)

ycfg = yu + sΔ̃ গঠনের পরে, yc এর প্রতি-নমুনা মান বিচ্যুতির সাথে মেলাতে পুনঃস্কেল করুন:

yres = α · Rescale(ycfg, std(yc)) + (1-α)ycfg

যেখানে α ∈ 0,1 মিশ্রণ সহগ।

३. জিরো প্রজেকশন (CFGZero)

অনুপ্রস্থ দিক বরাবর ফুটো দমন করতে, গণনা করুন:

  • α∥ = ⟨yc, yu⟩/⟨yu, yu⟩
  • গাইডেন্স সিগন্যাল হিসাবে অবশিষ্ট r = yc - α∥yu ব্যবহার করুন

४. অভিযোজনশীল মোড স্যুইচিং

উচ্চ ফ্রিকোয়েন্সি অনুপাত rHF = ∥Δh∥²/(∥Δℓ∥² + ∥Δh∥²) পর্যবেক্ষণ করুন এবং EMA ρ ট্র্যাক করুন। দুটি থ্রেশহোল্ড (τlo, τhi) এবং হিস্টেরেসিস মেকানিজমের মাধ্যমে রক্ষণশীল মোড (CFGZeroFD) এবং বিস্তারিত-সন্ধানকারী মোড (RescaleFDG) এর মধ্যে স্যুইচ করুন।

QSilk Micrograin Stabilizer

১. প্রতি-পদক্ষেপ কোয়ান্টাইল ক্ল্যাম্পিং (QClamp)

প্রতিটি ডিনোজিং পদক্ষেপের পরে, ডিনোজড টেনসরে প্রতি-নমুনা কোয়ান্টাইল ক্ল্যাম্পিং প্রয়োগ করুন, সংখ্যাগুলিকে (০.१%, ९९.९%) কোয়ান্টাইল পরিসরে সীমাবদ্ধ করুন।

२. পরবর্তী-পর্যায়ের মাইক্রো-বিস্তারিত ইনজেকশন

পরবর্তী পর্যায়ে, ক্ষুদ্র উচ্চ-ফ্রিকোয়েন্সি অবশিষ্ট যোগ করুন:

x'img = ximg + α(t)gedge gdepth(ximg - Gσ(ximg))

যেখানে gedge এবং gdepth যথাক্রমে প্রান্ত এবং গভীরতা গেটিং ফাংশন।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. একীভূত কাঠামো ডিজাইন: তিনটি ভিন্ন গাইডেন্স উন্নতি প্রযুক্তিকে একটি একক কাঠামোতে জৈবিকভাবে একত্রিত করে
  2. অভিযোজনশীল স্যুইচিং মেকানিজম: স্পেকট্রাল বিশ্লেষণের উপর ভিত্তি করে বুদ্ধিমান মোড স্যুইচিং, স্যাম্পলিং প্রক্রিয়ার সময় কাঠামোগত পরিবর্তনের সাথে খাপ খায়
  3. প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য: সমস্ত উপাদান অনুমান-সময় প্রয়োগ, মডেল পুনরায় প্রশিক্ষণের প্রয়োজন নেই
  4. ফ্রিকোয়েন্সি-সচেতন প্রক্রিয়াকরণ: বিভিন্ন ফ্রিকোয়েন্সি উপাদানগুলি স্পষ্টভাবে পরিচালনা করে, বৈশ্বিক কাঠামো রক্ষা করার সময় বিস্তারিত বৃদ্ধি করে

পরীক্ষামূলক সেটআপ

ডেটাসেট

পরীক্ষাগুলি SDXL মডেল ব্যবহার করে, রেজোলিউশন ६७२×९४४, চূড়ান্ত আউটপুট রেজোলিউশন ३६८८×५१९२। পরীক্ষায় ফটো-ভিত্তিক এবং অ্যানিমে-ভিত্তিক বিভিন্ন SDXL মডেল অন্তর্ভুক্ত রয়েছে।

মূল্যায়ন মেট্রিক্স

প্রধানত গুণগত মূল্যায়নের মাধ্যমে, ফোকাস করে:

  • পোর্ট্রেট গুণমান (চোখ, চুল, ত্বকের টোন)
  • হাতের বিস্তারিত (আঙুল, নখ)
  • উচ্চ-ফ্রিকোয়েন্সি টেক্সচার (মানব ত্বকের মাইক্রো-টেক্সচার)

পরীক্ষামূলক কনফিগারেশন

  • স্যাম্পলার: Euler (অ্যানিমে) / UniPC (ফটো)
  • ধাপ: २५
  • CFG: ४.५
  • ডিনোজিং শক্তি: ०.६५

বাস্তবায়ন বিবরণ

ডিফল্ট প্যারামিটার:

  • σ = १.० (গাউসিয়ান বিচ্ছেদ)
  • (λℓ, λh) = (०.६, १.३)
  • পুনঃস্কেলিং মিশ্রণ α = ०.७
  • EMA β = ०.८
  • হিস্টেরেসিস থ্রেশহোল্ড (τlo, τhi) = (०.४५, ०.६०)

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

পরীক্ষাগুলি একাধিক দিক থেকে CADE 2.5 এর উন্নতি প্রদর্শন করে:

  1. অ্যানিমে-শৈলী পোর্ট্রেট: আরও স্পষ্ট লাইন, উন্নত রঙ এবং আলো প্রভাব, চোখ, নাক, ঠোঁটের বিস্তারিত উল্লেখযোগ্য উন্নতি, কোনও কম্পন নেই
  2. ফটো-শৈলী পোর্ট্রেট: বৈশ্বিক টোন বজায় রেখে মাইক্রো-বিস্তারিত বৃদ্ধি, চোখের নিদর্শন হ্রাস, চুলের বিস্তারিত আরও সমৃদ্ধ, ত্বকের টোন এবং মাইক্রো-টেক্সচার আরও প্রাকৃতিক
  3. উচ্চ-ফ্রিকোয়েন্সি বিস্তারিত: ঠোঁট, নাক, ঘাড় এবং অন্যান্য অঞ্চলে মাইক্রো-বিস্তারিত উল্লেখযোগ্যভাবে বৃদ্ধি পায়

কেস বিশ্লেষণ

পেপারটি বিস্তারিত ভিজ্যুয়াল তুলনা প্রদান করে, যা দেখায় যে ZeResFDG বৈশ্বিক রচনা এবং টোন বজায় রেখে মাইক্রো-বিস্তারিত গুণমান উল্লেখযোগ্যভাবে উন্নত করে এবং সাধারণ উচ্চ-CFG নিদর্শন (অতিরিক্ত স্যাচুরেশন, হ্যালো প্রভাব) হ্রাস করে।

পরীক্ষামূলক অনুসন্ধান

  • পদ্ধতি মধ্যম গাইডেন্স স্কেলে স্পষ্টতা এবং প্রম্পট অনুসরণ কার্যকরভাবে উন্নত করে
  • নিদর্শন সফলভাবে নিয়ন্ত্রিত হয়, বিশেষত অতিরিক্ত স্যাচুরেশন এবং হ্যালো সমস্যা
  • উচ্চ রেজোলিউশন আউটপুটে প্রাকৃতিক মাইক্রো-টেক্সচার প্রভাব তৈরি করে

সম্পর্কিত কাজ

প্রধান গবেষণা দিকনির্দেশনা

  1. মনোযোগ-নির্দেশিত নিয়ন্ত্রণ: SAG/PAG এবং অন্যান্য পদ্ধতি মনোযোগ মেকানিজম পরিচালনার মাধ্যমে গাইডেন্স প্রভাব উন্নত করে
  2. সময়সূচী-সচেতন গাইডেন্স: সীমিত ব্যবধানে গাইডেন্স প্রয়োগ করে নিদর্শন দমন করে
  3. পুনঃস্কেলিং হিউরিস্টিক্স: ব্যবহারে ব্যাপকভাবে ব্যবহৃত শক্তি-মিলান পদ্ধতি

সম্পর্কিত কাজের সাথে সম্পর্ক

পেপারটি বিশেষভাবে Sadat এবং অন্যান্য (२०२५) এর অভিযোজনশীল প্রজেকশন গাইডেন্স (APG) কাঠামোর পরিপূরক প্রকৃতি উল্লেখ করে। APG ক্লাসিফায়ার-মুক্ত গাইডেন্সকে সমান্তরাল এবং অর্থোগোনাল উপাদানে বিয়োজিত করে, যখন এই পেপারটি এই দৃষ্টিভঙ্গি প্রসারিত করে, পুনঃস্কেলিং এবং SD/SDXL-এর জন্য বিশেষায়িত জিরো প্রজেকশন শর্ত যোগ করে।

আপেক্ষিক সুবিধা

  • আরও একীভূত সমাধান প্রদান করে
  • ফ্রিকোয়েন্সি ডোমেইন বিশ্লেষণ একত্রিত করে
  • অভিযোজনশীল মোড স্যুইচিং বাস্তবায়ন করে
  • প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য বজায় রাখে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

CADE 2.5 সফলভাবে ZeResFDG কাঠামোর মাধ্যমে SD/SDXL মডেলে উচ্চ CFG স্কেলে গুণমান অবনতির সমস্যা সমাধান করে, প্রশিক্ষণ-মুক্ত প্রকৃতি বজায় রেখে চিত্র গুণমান উল্লেখযোগ্যভাবে উন্নত করে।

সীমাবদ্ধতা

  1. মূল্যায়ন পরিসীমা সীমিত: লেখকরা স্বীকার করেন যে মূল্যায়ন প্রধানত গুণগত, ব্যাপক পরিমাণগত বেঞ্চমার্ক পরীক্ষার অভাব রয়েছে
  2. প্যারামিটার সংবেদনশীলতা: পদ্ধতিতে একাধিক হাইপারপ্যারামিটার জড়িত, বিভিন্ন পরিস্থিতির জন্য সূক্ষ্ম-সুর করার প্রয়োজন হতে পারে
  3. গণনামূলক ওভারহেড: হালকা ওজনের দাবি থাকলেও, ফ্রিকোয়েন্সি বিয়োজন এবং মাল্টি-মোড স্যুইচিং এখনও কিছু গণনামূলক খরচ রয়েছে

ভবিষ্যত দিকনির্দেশনা

  1. আরও ব্যাপক পরিমাণগত মূল্যায়ন এবং অ্যাবলেশন অধ্যয়ন
  2. অন্যান্য ডিফিউশন মডেল আর্কিটেকচারের জন্য অভিযোজন
  3. প্যারামিটার স্বয়ংক্রিয় সুর করার মেকানিজমের বিকাশ
  4. অন্যান্য গাইডেন্স উন্নতি পদ্ধতির সাথে গভীর তুলনা

গভীর মূল্যায়ন

শক্তি

  1. পদ্ধতি উদ্ভাবন শক্তিশালী: তিনটি ভিন্ন উন্নতি প্রযুক্তি একটি একক কাঠামোতে একত্রিত করে, ডিজাইন চিন্তাশীল
  2. ব্যবহারিক মূল্য উচ্চ: প্রশিক্ষণ-মুক্ত, প্লাগ-এন্ড-প্লে বৈশিষ্ট্য স্থাপনা সহজ করে
  3. প্রযুক্তিগত বিবরণ সম্পূর্ণ: বিস্তারিত অ্যালগরিদম বর্ণনা এবং বাস্তবায়ন বিবরণ প্রদান করে
  4. ভিজ্যুয়াল প্রভাব উল্লেখযোগ্য: প্রদর্শিত নমুনা থেকে, উন্নতি প্রভাব স্পষ্ট

অপূর্ণতা

  1. মূল্যায়ন অসম্পূর্ণ: পরিমাণগত মেট্রিক্স এবং বড় আকারের ডেটাসেট যাচাইকরণের অভাব
  2. তাত্ত্বিক বিশ্লেষণ সীমিত: এই সমন্বয় কেন কার্যকর তার গভীর তাত্ত্বিক ব্যাখ্যার অভাব
  3. প্যারামিটার সেটিং অভিজ্ঞতা-নির্ভর: একাধিক হাইপারপ্যারামিটারের নির্বাচন প্রধানত অভিজ্ঞতার উপর ভিত্তি করে
  4. তুলনামূলক পরীক্ষা অপর্যাপ্ত: অন্যান্য SOTA পদ্ধতির সাথে সরাসরি তুলনা কম

প্রভাব

এই কাজ ডিফিউশন মডেল অনুমান অপ্টিমাইজেশন ক্ষেত্রে গুরুত্বপূর্ণ তাৎপর্য রাখে:

  • গাইডেন্স উন্নতির নতুন চিন্তাভাবনা প্রদান করে
  • ব্যবহারিক প্রয়োগের জন্য কার্যকর সরঞ্জাম প্রদান করে
  • আরও প্রশিক্ষণ-মুক্ত অপ্টিমাইজেশন পদ্ধতিকে অনুপ্রাণিত করতে পারে

প্রযোজ্য পরিস্থিতি

  • SD/SDXL মডেলের চিত্র উৎপাদন গুণমান উন্নতি
  • উচ্চ-গুণমানের বিস্তারিত প্রয়োজনীয় শিল্প সৃষ্টি
  • বাণিজ্যিক চিত্র উৎপাদন প্রয়োগ
  • ডিফিউশন মডেল গাইডেন্স মেকানিজম অধ্যয়নকারী গবেষকরা

রেফারেন্স

পেপারটি এই ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • SAG/PAG এবং অন্যান্য মনোযোগ-নির্দেশিত পদ্ধতি
  • APG কাঠামোর সম্পর্কিত গবেষণা
  • ডিফিউশন মডেল গাইডেন্স মেকানিজমের ভিত্তি তত্ত্ব
  • ব্যবহারে ব্যাপকভাবে ব্যবহৃত অপ্টিমাইজেশন কৌশল

সামগ্রিক মূল্যায়ন: এটি একটি প্রযুক্তিগতভাবে শক্তিশালী প্রকৌশল অপ্টিমাইজেশন পেপার, যদিও তাত্ত্বিক গভীরতা এবং মূল্যায়ন সম্পূর্ণতার দিক থেকে কিছু অভাব রয়েছে, তবে এর ব্যবহারিক মূল্য অত্যন্ত বেশি, ডিফিউশন মডেলের ব্যবহারিক প্রয়োগের জন্য কার্যকর উন্নতি সমাধান প্রদান করে। পদ্ধতির প্রশিক্ষণ-মুক্ত বৈশিষ্ট্য এবং উল্লেখযোগ্য ভিজ্যুয়াল উন্নতি প্রভাব এটিকে ভাল প্রয়োগ সম্ভাবনা প্রদান করে।