2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.

Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.

academic

Смягчение сдвига шума для моделей генерации с удалением шума посредством руководства с учетом шума

Основная информация

ID статьи: 2510.12497
Название: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
Авторы: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
Категория: cs.LG (Машинное обучение)
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12497

Аннотация

Существующие модели генерации с удалением шума полагаются на решение дискретизированных обратных по времени СДУ или ОДУ. В данной работе выявлена давно игнорируемая, но повсеместно распространенная проблема в таких моделях: несоответствие между предопределенными уровнями шума и фактическими уровнями шума, закодированными в промежуточных состояниях в процессе выборки. Авторы называют это несоответствие сдвигом шума (noise shift). Посредством эмпирического анализа авторы доказывают, что сдвиг шума широко распространен в современных моделях диффузии и демонстрирует систематическое смещение, приводящее к проблемам обобщения вне распределения и неточным обновлениям удаления шума, что приводит к субоптимальным результатам генерации. Для решения этой проблемы авторы предлагают руководство с учетом шума (NAG) — простой и эффективный метод коррекции, который явно направляет траектории выборки на согласованность с предопределенным расписанием шума.

Исследовательский контекст и мотивация

Выявление проблемы

Модели диффузии и потоковые модели и другие модели генерации с удалением шума достигли значительных успехов в задачах визуальной генерации, таких как синтез изображений и генерация видео. Основной принцип этих моделей заключается в итеративном восстановлении целевого образца из чистого шума. Однако в процессе итеративной выборки модель неизбежно накапливает ошибки из множественных источников, включая:

Несовершенную аппроксимацию сетью
Ошибки дискретизации при численном интегрировании
Другие стохастические факторы

Основная проблема

Авторы обнаруживают, что ключевым проявлением этих накопленных ошибок является то, что уровень шума, внутренне закодированный в промежуточных состояниях, может отклоняться от предопределенного расписания. Это явление, называемое "сдвигом шума", долгое время игнорировалось сообществом, но на самом деле оно широко распространено и коренится в коллективном эффекте различных источников ошибок.

Значимость проблемы

Сдвиг шума приводит к фундаментальному несоответствию между сетью удаления шума при обучении и выводе, что проявляется в:

Проблемы обобщения вне распределения: обученная модель применяется к смещенным промежуточным состояниям
Субоптимальные операции удаления шума: использование неточных предопределенных коэффициентов для расчета следующего состояния

Основные вклады

Выявление проблемы сдвига шума: первое систематическое выявление и анализ повсеместно распространенной, но долгое время игнорируемой проблемы сдвига шума в моделях генерации с удалением шума
Предложение метода NAG: разработка метода руководства с учетом шума (NAG) для смягчения проблемы сдвига шума
Разработка варианта без классификатора: предложение варианта NAG без классификатора посредством совместного обучения моделей с условием шума и без условия шума с использованием отсева с условием шума
Комплексная экспериментальная проверка: проверка эффективности и универсальности NAG на задачах генерации ImageNet и контролируемой тонкой настройки

Подробное описание метода

Формализация проблемы

Прямой процесс

Для уровня шума $t \in [0,T]$ непрерывная интерполяция со случайным временем определяется как: $x_t = \alpha_t x_0 + \sigma_t \epsilon$ где $\alpha_0 = \sigma_T = 1$ , $\alpha_T = \sigma_0 = 0$ , $\alpha_t$ монотонно убывает, $\sigma_t$ монотонно возрастает.

Математическое описание сдвига шума

Накопленная ошибка $e$ может рассматриваться как дополнительное гауссовское возмущение, применяемое к $x_t$ : $\hat{x}_t = x_t + e$ , где $e \sim \mathcal{N}(0, \sigma_e^2 I)$ .

Это возмущение увеличивает эффективную дисперсию с $\sigma_t^2$ до $\sigma_t^2 + \sigma_e^2$ , заставляя возмущенное состояние вести себя как выборка при смещенном уровне шума $t' = t + \delta$ : $\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2$

Утверждение 1: Когда дисперсия ошибки $\sigma_e^2$ мала, приближение первого порядка смещения $\delta$ имеет вид: $\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}$

Руководство с учетом шума (NAG)

NAG на основе классификатора

Оценка с условием шума может быть записана как: $s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)$

Сигнал руководства $\nabla \log g_\phi(t|x)$ предоставляется внешним оценивателем апостериори $g_\phi$ .

NAG без классификатора

Используя $p_t(t|x) \propto p_t(x|t)/p_t(x)$ , применяется смешивание оценок для аппроксимации градиента неявного предсказателя шума: $s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)$

где $w_{nag}$ — параметр руководства NAG.

Стратегия реализации

Следует стратегии обучения CFG: во время обучения условие шума $t$ случайно отсеивается с фиксированной вероятностью, позволяя модели совместно использовать веса между целями с условием и без условия.

Технические инновации

Прямое решение проблемы сдвига шума: NAG напрямую решает проблему несоответствия уровней шума, а не косвенно смягчает ее
Ортогональность к CFG: ось условия уровня шума, введенная NAG, ортогональна оси условия CFG, обеспечивая дополнительное управление
Простота и эффективность: не требует внешнего классификатора, может быть напрямую интегрирован в существующие модели

Экспериментальная установка

Наборы данных

ImageNet 256×256: использование предварительно обученного VAE Stable Diffusion для получения скрытых векторов 32×32×4
Наборы данных контролируемой тонкой настройки: Food101, SUN397, DF20-Mini, Caltech101, CUB-200-2011, ArtBench-10, Stanford Cars

Архитектура модели

DiT (Diffusion Transformers): варианты S/2, B/2, L/2, XL/2
SiT (Scalable Interpolant Transformers): варианты той же конфигурации

Метрики оценки

FID (Fréchet Inception Distance): основная метрика оценки
Precision & Recall: используется для оценки сходящихся результатов

Детали реализации

Количество шагов выборки: DiT использует 250-шаговую выборку DDPM, SiT использует 250-шаговую выборку SDE-Euler-Maruyama
Вес руководства: $w_{nag} = 3.0$ (без CFG), $w_{nag} = 2.0$ (с CFG)
Отсев шума: вероятность отсева условия шума 10% во время обучения

Результаты экспериментов

Основные результаты

Генерация ImageNet

Таблица 1: Результаты сравнения сходящихся моделей

Модель	Эпохи обучения	Генерация без CFG	Генерация с CFG
DiT-XL/2	1400	FID: 9.62	FID: 2.27
+NAG	10+(1400*)	FID: 2.59	FID: 2.14
SiT-XL/2	1400	FID: 8.61	FID: 2.06
+NAG	10+(1400*)	FID: 2.26	FID: 1.72

Ключевые выводы:

NAG при самостоятельном использовании достигает качества генерации, близкого к руководству CFG
При комбинировании с CFG NAG продолжает обеспечивать дополнительные улучшения
Требуется только 10 дополнительных эпох тонкой настройки (примерно 0,7% стоимости предварительного обучения) для включения NAG

Результаты контролируемой тонкой настройки

Таблица 2: Сравнение FID для задач тонкой настройки

Метод	Food	SUN	Caltech	CUB	Stanford Car	DF-20M	ArtBench	Среднее FID
Тонкая настройка (без CFG)	16.04	21.41	31.34	9.81	11.29	17.92	22.76	18.65
+NAG	11.18	14.95	24.32	5.68	5.92	14.79	19.22	13.72
Тонкая настройка (с CFG)	10.93	14.13	23.84	5.37	6.32	15.29	19.94	13.69
+NAG	5.78	8.81	21.87	3.52	3.91	12.55	15.69	10.31

Эффект смягчения сдвига шума

Эмпирический анализ посредством внешнего оценивателя шума $g_\phi$ показывает:

Сдвиг шума широко распространен в современных моделях диффузии
Проявляется как систематическое смещение в сторону больших уровней шума
NAG эффективно снижает это смещение, особенно в диапазоне, где отношение сигнал-шум больше 1

Абляционные исследования

Чувствительность к весу руководства: $w_{nag}$ демонстрирует стабильную производительность в диапазоне 2.0-4.0
Влияние количества шагов выборки: NAG эффективен при различном количестве шагов выборки
Универсальность архитектуры: демонстрирует последовательные улучшения как на архитектурах DiT, так и на SiT

Связанные работы

Модели генерации с удалением шума

Модели диффузии: DDPM, DiT и другие сосредоточены на расписании шума, целях обучения и архитектурах моделей
Потоковые модели: методы Flow Matching и другие
Ускоренная выборка: решатели высокого порядка, улучшенное моделирование интервалов и другие

Методы руководства

Руководство классификатором: использование внешнего классификатора для условной генерации
Руководство без классификатора (CFG): достижение руководства посредством смешивания моделей с условием и без условия
Руководство по домену (DoG): метод руководства, специально разработанный для сценариев тонкой настройки

NAG в данной работе является первым методом, который явно использует сам уровень шума в качестве сигнала руководства, напрямую усиливая согласованность с ожидаемым условием шума.

Заключение и обсуждение

Основные выводы

Повсеместное распространение проблемы сдвига шума: обнаружено широкое распространение несоответствия между обучением и выводом в современных моделях генерации с удалением шума
Эффективность NAG в смягчении проблемы: посредством прямого решения проблемы несоответствия уровней шума значительно улучшается качество генерации
Высокая универсальность метода: демонстрирует последовательные улучшения на различных архитектурах, задачах и базовых методах

Ограничения

Зависимость от оценивателя шума: эмпирический анализ зависит от точности внешнего оценивателя шума
Упрощение теоретического анализа: теоретический анализ, основанный на упрощенных предположениях, может не полностью отразить фактическую сложность
Вычислительные затраты: требует дополнительного обучения безусловной ветви

Направления будущих исследований

Авторы надеются, что эта работа привлечет внимание исследователей к широко распространенной проблеме несоответствия между обучением и выводом в генерации с удалением шума, способствуя следующим направлениям исследований:

Теоретический или эмпирический анализ проблемы сдвига шума
Построение моделей генерации, устойчивых к смещениям на этапе вывода
Исследование границ высококачественной генерации
Более быстрые методы выборки

Глубокая оценка

Преимущества

Инновационное выявление проблемы: первое систематическое выявление и анализ повсеместно распространенной, но игнорируемой проблемы сдвига шума
Простой и эффективный метод: NAG имеет простую конструкцию, легко интегрируется в существующие модели и демонстрирует значительные результаты
Достаточные эксперименты: охватывают различные архитектуры, наборы данных и задачи, проверяя универсальность метода
Теоретическая поддержка: предоставляет математический анализ сдвига шума и приближенные формулы
Высокая практическая ценность: требует минимального дополнительного обучения для значительного улучшения производительности существующих моделей

Недостатки

Ограничения теоретического анализа: основан на упрощенных предположениях, может не полностью объяснить сложные реальные ситуации
Проблема оценивателя шума: эмпирический анализ зависит от внешнего оценивателя, что может привести к дополнительным ошибкам
Вычислительные затраты: требует обучения дополнительной безусловной ветви, увеличивая затраты на обучение и вывод
Область применения: в основном проверена на задачах визуальной генерации, применимость к другим модальностям неизвестна

Влияние

Академический вклад: раскрывает важную проблему в моделях генерации с удалением шума, предоставляя новое направление исследований для области
Практическая ценность: может быть напрямую применен для улучшения производительности существующих моделей с высокой практической ценностью
Универсальность метода: ортогонален и дополняет существующие методы руководства, имеет широкую применимость

Применимые сценарии

Крупномасштабные задачи генерации изображений
Контролируемая тонкая настройка предварительно обученных моделей
Сценарии приложений, требующие высококачественной генерации
Среды с относительно достаточными вычислительными ресурсами

Библиография

Статья ссылается на важные работы в смежных областях моделей диффузии, потоковых моделей, методов руководства, включая:

Ho et al. (2020): оригинальная статья DDPM
Peebles & Xie (2023): архитектура DiT
Ma et al. (2024): архитектура SiT
Ho & Salimans (2021): руководство без классификатора
Dhariwal & Nichol (2021): руководство классификатором

Общая оценка: Это высококачественная исследовательская работа, которая выявляет важную, но игнорируемую проблему в моделях генерации с удалением шума, предлагает простое и эффективное решение и проверяет эффективность и универсальность метода посредством достаточных экспериментов. Эта работа имеет важное академическое значение и практическую ценность для области моделей диффузии.