2025-11-23T07:10:16.507917

CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models

Rychkovskiy, GPT-5

We introduce CADE 2.5 (Comfy Adaptive Detail Enhancer), a sampler-level guidance stack for SD/SDXL latent diffusion models. The central module, ZeResFDG, unifies (i) frequency-decoupled guidance that reweights low- and high-frequency components of the guidance signal, (ii) energy rescaling that matches the per-sample magnitude of the guided prediction to the positive branch, and (iii) zero-projection that removes the component parallel to the unconditional direction. A lightweight spectral EMA with hysteresis switches between a conservative and a detail-seeking mode as structure crystallizes during sampling. Across SD/SDXL samplers, ZeResFDG improves sharpness, prompt adherence, and artifact control at moderate guidance scales without any retraining. In addition, we employ a training-free inference-time stabilizer, QSilk Micrograin Stabilizer (quantile clamp + depth/edge-gated micro-detail injection), which improves robustness and yields natural high-frequency micro-texture at high resolutions with negligible overhead. For completeness we note that the same rule is compatible with alternative parameterizations (e.g., velocity), which we briefly discuss in the Appendix; however, this paper focuses on SD/SDXL latent diffusion models.

academic

CADE 2.5 - ZeResFDG: Частотно-развязанное, перемасштабированное и нулевое проектирование для моделей латентной диффузии SD/SDXL

Основная информация

ID статьи: 2510.12954
Название: CADE 2.5 - ZeResFDG: Frequency-Decoupled, Rescaled and Zero-Projected Guidance for SD/SDXL Latent Diffusion Models
Авторы: Denis Rychkovskiy ("DZRobo", независимый исследователь), GPT-5 (AI-сотрудник и соавтор, OpenAI)
Категория: cs.CV (основная), cs.LG (вспомогательная)
Дата публикации: 11 октября 2025 г.
Ссылка на статью: https://arxiv.org/abs/2510.12954

Аннотация

В данной работе предложен CADE 2.5 (Comfy Adaptive Detail Enhancer) — стек руководства уровня сэмплера для моделей латентной диффузии SD/SDXL. Основной модуль ZeResFDG объединяет три ключевые технологии: (1) частотно-развязанное руководство, переопределяющее вес низкочастотных и высокочастотных компонентов сигнала руководства; (2) перемасштабирование энергии, согласующее амплитуду управляемого предсказания с положительной ветвью на выборку; (3) нулевое проектирование, удаляющее компоненты, параллельные безусловному направлению. Легкий спектральный EMA с механизмом гистерезиса переключается между консервативным и режимом поиска деталей во время кристаллизации структуры в процессе сэмплирования. Метод улучшает четкость, соответствие подсказкам и контроль артефактов при средних масштабах руководства без переобучения.

Исследовательский контекст и мотивация

Основная проблема

Модели латентной диффузии (такие как SD/SDXL), хотя и способны генерировать изображения высокой верности, демонстрируют деградацию качества при больших масштабах классификатора-свободного руководства (CFG), проявляющуюся в виде пересыщения, смещения тона или текстурных артефактов. Снижение CFG для избежания этих эффектов часто приводит к потере четкости и соответствия подсказкам.

Значимость проблемы

Эта проблема напрямую влияет на качество результатов моделей диффузии в практических приложениях. Пользователи вынуждены выбирать между четкостью/соответствием подсказкам и контролем артефактов, что ограничивает практическую применимость модели.

Ограничения существующих методов

Существующие решения включают:

Руководство на основе внимания (SAG/PAG)
Руководство с учетом расписания или ограничением интервала
Широко используемые на практике эвристики перемасштабирования

Хотя эти методы имеют определенный эффект, им не хватает единой структуры для одновременного решения проблем обработки частотных компонентов, согласования энергии и дрейфа направления.

Исследовательская мотивация

Данная работа направлена на предоставление компактного решения на уровне сэмплера путем переформирования самого сигнала руководства для решения вышеупомянутых проблем при сохранении свойства независимости от обучения.

Основные вклады

Предложена унифицированная структура ZeResFDG: органично объединяющая три технологии — частотное развязывание, перемасштабирование энергии и нулевое проектирование
Разработан механизм адаптивного переключения режимов: динамическое переключение между консервативным режимом и режимом поиска деталей на основе спектрального EMA и гистерезиса
Разработан QSilk Micrograin Stabilizer: независимый от обучения стабилизатор времени вывода, улучшающий надежность и создающий естественную микротекстуру при высоком разрешении
Реализована подключаемая оболочка сэмплера: интеграция в существующие конвейеры SD/SDXL без переобучения
Проверена совместимость между параметризациями: метод применим к различным способам параметризации (например, параметризация скорости)

Описание метода

Определение задачи

Учитывая условное предсказание y_c и безусловное предсказание y_u, стандартное CFG формирует y_cfg = y_u + s(y_c - y_u), где s > 0 — масштаб руководства. Цель состоит в уменьшении артефактов при высоких масштабах CFG при сохранении соответствия подсказкам.

Архитектура модели

1. Частотно-развязанное руководство (FDG)

Разложение исходного руководства Δ = y_c - y_u на низкочастотные и высокочастотные компоненты через фильтр низких частот Гаусса G_σ:

Δ_ℓ = G_σ * Δ (низкочастотный компонент)
Δ_h = Δ - Δ_ℓ (высокочастотный компонент)
Переопределение веса: Δ̃ = λ_ℓΔ_ℓ + λ_hΔ_h, где λ_ℓ ∈ 0,1, λ_h ≳ 1

2. Перемасштабирование энергии (RescaleCFG)

После формирования y_cfg = y_u + sΔ̃ перемасштабирование для согласования стандартного отклонения y_c на выборку:

y_res = α · Rescale(y_cfg, std(y_c)) + (1-α)y_cfg

где α ∈ 0,1 — коэффициент смешивания.

3. Нулевое проектирование (CFGZero)

Для подавления утечки вдоль безусловного направления вычисляется:

α_∥ = ⟨y_c, y_u⟩/⟨y_u, y_u⟩
Использование остатка r = y_c - α_∥y_u в качестве сигнала руководства

4. Адаптивное переключение режимов

Мониторинг коэффициента высокой частоты r_HF = ∥Δ_h∥²/(∥Δ_ℓ∥² + ∥Δ_h∥²) и отслеживание EMA ρ. Переключение между консервативным режимом (CFGZeroFD) и режимом поиска деталей (RescaleFDG) через два порога (τ_lo, τ_hi) и механизм гистерезиса.

QSilk Micrograin Stabilizer

1. Поквантильное зажатие на каждом шаге (QClamp)

После каждого шага удаления шума применяется поквантильное зажатие к тензору удаления шума, ограничивая значения диапазоном (0,1%, 99,9%) квантилей.

2. Инъекция микродеталей на поздних этапах

На поздних этапах добавляется небольшой высокочастотный остаток:

x'_img = x_img + α(t)g_edge g_depth(x_img - G_σ(x_img))

где g_edge и g_depth — функции затвора краев и глубины соответственно.

Технические инновации

Дизайн унифицированной структуры: органичное объединение трех различных технологий улучшения руководства в единую структуру
Механизм адаптивного переключения: интеллектуальное переключение режимов на основе спектрального анализа, адаптирующееся к изменениям структуры в процессе сэмплирования
Независимость от обучения: все компоненты применяются во время вывода без переобучения модели
Обработка с учетом частоты: явная обработка различных частотных компонентов, защита глобальной структуры при одновременном улучшении деталей

Экспериментальная установка

Набор данных

Эксперименты используют модель SDXL с разрешением 672×944, окончательное выходное разрешение 3688×5192. Тестирование включает различные модели SDXL, ориентированные на фотографию и аниме.

Метрики оценки

Оценка проводится в основном качественно с акцентом на:

Качество портретов (глаза, волосы, тон кожи)
Детали рук (пальцы, ногти)
Высокочастотная текстура (микротекстура кожи человека)

Параметры экспериментов

Сэмплер: Euler (аниме) / UniPC (фотография)
Количество шагов: 25
CFG: 4,5
Интенсивность удаления шума: 0,65

Детали реализации

Параметры по умолчанию:

σ = 1,0 (гауссово разделение)
(λ_ℓ, λ_h) = (0,6, 1,3)
Коэффициент смешивания перемасштабирования α = 0,7
EMA β = 0,8
Пороги гистерезиса (τ_lo, τ_hi) = (0,45, 0,60)

Результаты экспериментов

Основные результаты

Эксперименты демонстрируют улучшения CADE 2.5 в нескольких аспектах:

Портреты в стиле аниме: более четкие линии, улучшенные эффекты цвета и освещения, значительное улучшение деталей глаз, носа, губ, без дрожания
Портреты в фотографическом стиле: улучшение микродеталей при сохранении глобального тона, уменьшение артефактов глаз, более богатые детали волос, более естественные тон кожи и микротекстура
Высокочастотные детали: значительное улучшение микродеталей в областях губ, носа, шеи и т.д.

Анализ случаев

Статья предоставляет подробные визуальные сравнения, показывающие, что ZeResFDG значительно улучшает качество микродеталей и уменьшает типичные артефакты высокого CFG (пересыщение, эффект ореола) при сохранении глобальной композиции и тона.

Экспериментальные выводы

Метод эффективно улучшает четкость и соответствие подсказкам при средних масштабах руководства
Успешно контролирует артефакты, особенно проблемы пересыщения и ореола
Создает естественную микротекстуру при высоком разрешении вывода

Связанные работы

Основные направления исследований

Управление, ориентированное на внимание: методы SAG/PAG и другие, улучшающие эффект руководства путем манипулирования механизмом внимания
Руководство с учетом расписания: применение руководства в ограниченных интервалах для подавления артефактов
Эвристики перемасштабирования: широко используемые на практике методы согласования энергии

Связь с связанными работами

Статья особо отмечает дополнительность с адаптивной структурой проектирования руководства (APG) Sadat et al. (2025). APG разлагает классификатор-свободное руководство на параллельные и ортогональные компоненты, в то время как данная работа расширяет эту перспективу, добавляя перемасштабирование и нулевое проектирование, специально разработанное для SD/SDXL.

Относительные преимущества

Предоставляет более унифицированное решение
Объединяет анализ в частотной области
Реализует адаптивное переключение режимов
Сохраняет независимость от обучения

Выводы и обсуждение

Основные выводы

CADE 2.5 успешно решает проблему деградации качества моделей SD/SDXL при высоких масштабах CFG через структуру ZeResFDG, значительно улучшая качество изображения при сохранении независимости от обучения.

Ограничения

Ограниченный объем оценки: авторы признают, что оценка в основном качественная, не хватает комплексных количественных тестов
Чувствительность к параметрам: метод включает несколько гиперпараметров, которые могут потребовать настройки для различных сценариев
Вычислительные затраты: хотя заявляется легкость, частотное разложение и многорежимное переключение все еще имеют определенные вычислительные затраты

Будущие направления

Более комплексная количественная оценка и исследование абляции
Адаптация к другим архитектурам моделей диффузии
Разработка механизмов автоматической настройки параметров
Более глубокое сравнение с другими методами улучшения руководства

Глубокая оценка

Преимущества

Сильная методологическая инновативность: умелое объединение трех различных технологий улучшения в единую структуру
Высокая практическая ценность: независимость от обучения и подключаемость облегчают развертывание
Полные технические детали: предоставляет подробное описание алгоритма и детали реализации
Значительные визуальные улучшения: из представленных примеров видны явные улучшения

Недостатки

Недостаточная полнота оценки: отсутствие количественных метрик и проверки на крупномасштабных наборах данных
Ограниченный теоретический анализ: отсутствует глубокое объяснение того, почему такая комбинация эффективна
Зависимость от эмпирических параметров: выбор нескольких гиперпараметров в основном основан на опыте
Недостаточные сравнительные эксперименты: мало прямых сравнений с другими методами SOTA

Влияние

Данная работа имеет важное значение для области оптимизации вывода моделей диффузии:

Предоставляет новые идеи для улучшения руководства
Предоставляет эффективные инструменты для практических приложений
Может вдохновить больше методов оптимизации, независимых от обучения

Применимые сценарии

Улучшение качества генерации изображений моделей SD/SDXL
Художественное творчество, требующее высокого качества деталей
Коммерческие приложения генерации изображений
Исследователи, изучающие механизмы руководства моделей диффузии

Ссылки

Статья цитирует важные работы в этой области, включая:

Методы, ориентированные на внимание, такие как SAG/PAG
Исследования, связанные с структурой APG
Фундаментальную теорию механизмов руководства моделей диффузии
Широко используемые на практике методы оптимизации

Общая оценка: Это технически сильная инженерная статья об оптимизации. Хотя она имеет некоторые недостатки в теоретической глубине и полноте оценки, ее практическая ценность высока, предоставляя эффективные решения для улучшения практических приложений моделей диффузии. Независимость от обучения и значительные визуальные улучшения метода дают ему хорошие перспективы применения.