2025-11-14T15:31:11.541597

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

Zhong, Jiang, Tao et al.
Existing denoising generative models rely on solving discretized reverse-time SDEs or ODEs. In this paper, we identify a long-overlooked yet pervasive issue in this family of models: a misalignment between the pre-defined noise level and the actual noise level encoded in intermediate states during sampling. We refer to this misalignment as noise shift. Through empirical analysis, we demonstrate that noise shift is widespread in modern diffusion models and exhibits a systematic bias, leading to sub-optimal generation due to both out-of-distribution generalization and inaccurate denoising updates. To address this problem, we propose Noise Awareness Guidance (NAG), a simple yet effective correction method that explicitly steers sampling trajectories to remain consistent with the pre-defined noise schedule. We further introduce a classifier-free variant of NAG, which jointly trains a noise-conditional and a noise-unconditional model via noise-condition dropout, thereby eliminating the need for external classifiers. Extensive experiments, including ImageNet generation and various supervised fine-tuning tasks, show that NAG consistently mitigates noise shift and substantially improves the generation quality of mainstream diffusion models.
academic

Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance

基本信息

  • 论文ID: 2510.12497
  • 标题: Mitigating the Noise Shift for Denoising Generative Models via Noise Awareness Guidance
  • 作者: Jincheng Zhong, Boyuan Jiang, Xin Tao, Pengfei Wan, Kun Gai, Mingsheng Long
  • 分类: cs.LG (Machine Learning)
  • 发表时间: 2025年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.12497

摘要

现有的去噪生成模型依赖于求解离散化的反向时间SDE或ODE。本文识别了这类模型中一个长期被忽视但普遍存在的问题:预定义噪声水平与采样过程中中间状态编码的实际噪声水平之间的不匹配。作者将这种不匹配称为噪声偏移(noise shift)。通过实证分析,作者证明噪声偏移在现代扩散模型中广泛存在并表现出系统性偏差,导致分布外泛化和不准确的去噪更新问题,从而产生次优生成结果。为解决这一问题,作者提出了噪声感知引导(NAG),这是一种简单而有效的修正方法,明确引导采样轨迹保持与预定义噪声调度的一致性。

研究背景与动机

问题识别

扩散模型和流模型等去噪生成模型在图像合成、视频生成等视觉生成任务中取得了显著成功。这些模型的核心原理是通过迭代过程从纯噪声逐步恢复目标样本。然而,在迭代采样过程中,模型不可避免地会累积来自多个源的误差,包括:

  • 不完美的网络近似
  • 数值积分中的离散化误差
  • 其他随机因素

核心问题

作者发现这些累积误差的一个关键表现是:中间状态固有编码的噪声水平可能偏离预定义的调度。这种被称为"噪声偏移"的现象长期被社区忽视,但实际上既广泛存在又根植于各种误差源的集体效应中。

问题重要性

噪声偏移会导致去噪网络在训练和推理之间出现根本性不匹配,具体表现为:

  1. 分布外泛化问题:训练好的模型被应用到偏移的中间状态上
  2. 次优去噪操作:使用不准确的预定义系数计算下一状态

核心贡献

  1. 识别噪声偏移问题:首次系统性地识别并分析了去噪生成模型中普遍存在但长期被忽视的噪声偏移问题
  2. 提出NAG方法:设计了噪声感知引导(NAG)方法来缓解噪声偏移问题
  3. 开发无分类器变体:提出了NAG的无分类器变体,通过噪声条件dropout联合训练噪声条件和噪声无条件模型
  4. 全面实验验证:在ImageNet生成和监督微调任务上验证了NAG的有效性和通用性

方法详解

问题形式化

前向过程

对于噪声水平 t[0,T]t \in [0,T],连续时间随机插值定义为: xt=αtx0+σtϵx_t = \alpha_t x_0 + \sigma_t \epsilon 其中 α0=σT=1\alpha_0 = \sigma_T = 1αT=σ0=0\alpha_T = \sigma_0 = 0αt\alpha_t 单调递减,σt\sigma_t 单调递增。

噪声偏移的数学描述

累积误差 ee 可视为应用于 xtx_t 的额外高斯扰动:x^t=xt+e\hat{x}_t = x_t + e,其中 eN(0,σe2I)e \sim \mathcal{N}(0, \sigma_e^2 I)

这种扰动将有效方差从 σt2\sigma_t^2 增加到 σt2+σe2\sigma_t^2 + \sigma_e^2,使扰动状态表现得像在偏移噪声水平 t=t+δt' = t + \delta 处采样: σt+δ2=σt2+σe2\sigma_{t+\delta}^2 = \sigma_t^2 + \sigma_e^2

Statement 1: 当误差方差 σe2\sigma_e^2 较小时,偏移 δ\delta 的一阶近似为: δσt2+σe2σtσ˙t\delta \approx \frac{\sqrt{\sigma_t^2 + \sigma_e^2} - \sigma_t}{\dot{\sigma}_t}

噪声感知引导(NAG)

基于分类器的NAG

噪声条件得分可写为: s(xt)=xlogpt(xt)=xlogpt(x)+xlogpt(tx)s(x|t) = \nabla_x \log p_t(x|t) = \nabla_x \log p_t(x) + \nabla_x \log p_t(t|x)

通过外部后验估计器 gϕg_\phi 提供引导信号 loggϕ(tx)\nabla \log g_\phi(t|x)

无分类器NAG

利用 pt(tx)pt(xt)/pt(x)p_t(t|x) \propto p_t(x|t)/p_t(x),使用得分混合来近似隐式噪声预测器的梯度: swnag(xt)=(wnag+1)s(xt)wnags(x)s^{w_{nag}}(x|t) = (w_{nag} + 1)s(x|t) - w_{nag}s(x)

其中 wnagw_{nag} 是NAG的引导参数。

实现策略

遵循CFG的训练策略:训练期间以固定概率随机丢弃噪声条件 tt,使模型在条件和无条件目标之间共享权重。

技术创新点

  1. 直接针对噪声偏移:NAG直接针对噪声水平不匹配问题,而不是间接缓解
  2. 与CFG正交:NAG引入的噪声水平条件轴与CFG的条件轴正交,提供互补控制
  3. 简单有效:无需外部分类器,可直接集成到现有模型中

实验设置

数据集

  • ImageNet 256×256:使用预训练的Stable Diffusion VAE获得32×32×4潜在向量
  • 监督微调数据集:Food101、SUN397、DF20-Mini、Caltech101、CUB-200-2011、ArtBench-10、Stanford Cars

模型架构

  • DiT (Diffusion Transformers):S/2、B/2、L/2、XL/2变体
  • SiT (Scalable Interpolant Transformers):相同配置变体

评价指标

  • FID (Fréchet Inception Distance):主要评价指标
  • Precision & Recall:用于收敛结果评估

实现细节

  • 采样步数:DiT使用250步DDPM采样,SiT使用250步SDE-Euler-Maruyama采样
  • 引导权重wnag=3.0w_{nag} = 3.0(无CFG),wnag=2.0w_{nag} = 2.0(有CFG时)
  • 噪声dropout:训练时10%概率丢弃噪声条件

实验结果

主要结果

ImageNet生成

表1:收敛模型对比结果

模型训练轮数无CFG生成有CFG生成
DiT-XL/21400FID: 9.62FID: 2.27
+NAG10+(1400*)FID: 2.59FID: 2.14
SiT-XL/21400FID: 8.61FID: 2.06
+NAG10+(1400*)FID: 2.26FID: 1.72

关键发现:

  • NAG单独使用就能达到接近CFG引导的生成质量
  • 与CFG结合时,NAG继续提供额外改进
  • 仅需额外10轮微调(约0.7%的预训练成本)即可启用NAG

监督微调结果

表2:微调任务FID对比

方法FoodSUNCaltechCUBStanford CarDF-20MArtBench平均FID
微调(无CFG)16.0421.4131.349.8111.2917.9222.7618.65
+NAG11.1814.9524.325.685.9214.7919.2213.72
微调(有CFG)10.9314.1323.845.376.3215.2919.9413.69
+NAG5.788.8121.873.523.9112.5515.6910.31

噪声偏移缓解效果

通过外部噪声估计器 gϕg_\phi 的实证分析显示:

  • 噪声偏移在现代扩散模型中广泛存在
  • 表现为向更大噪声水平的系统性偏移
  • NAG有效减少了这种偏移,特别是在信噪比大于1的范围内

消融实验

  • 引导权重敏感性wnagw_{nag} 在2.0-4.0范围内表现稳定
  • 采样步数影响:NAG在不同采样步数下均有效
  • 架构通用性:在DiT和SiT架构上均显示一致改进

相关工作

去噪生成模型

  • 扩散模型:DDPM、DiT等专注于噪声调度、训练目标和模型架构
  • 流模型:Flow Matching等方法
  • 加速采样:高阶求解器、改进区间建模等

引导技术

  • 分类器引导:使用外部分类器进行条件生成
  • 无分类器引导(CFG):通过条件和无条件模型混合实现引导
  • 领域引导(DoG):专门为微调场景设计的引导方法

本文的NAG是首个明确使用噪声水平本身作为引导信号的方法,直接增强与预期噪声条件的对齐。

结论与讨论

主要结论

  1. 噪声偏移问题普遍存在:在现代去噪生成模型中广泛发现训练-推理不匹配
  2. NAG有效缓解问题:通过直接针对噪声水平不匹配,显著改善生成质量
  3. 方法通用性强:在不同架构、任务和基线方法上均显示一致改进

局限性

  1. 噪声估计器依赖:实证分析依赖外部噪声估计器的准确性
  2. 理论分析简化:基于简化假设的理论分析可能无法完全捕捉实际复杂性
  3. 计算开销:需要额外的无条件分支训练

未来方向

作者希望这项工作能吸引研究者关注去噪生成中广泛存在的训练-推理不匹配问题,促进以下研究方向:

  • 噪声偏移问题的理论或实证分析
  • 构建对推理阶段偏移鲁棒的生成模型
  • 探索高质量生成的边界
  • 更快的采样方法

深度评价

优点

  1. 问题识别创新:首次系统性识别并分析了噪声偏移这一普遍但被忽视的问题
  2. 方法简洁有效:NAG设计简单,易于集成到现有模型,且效果显著
  3. 实验充分:涵盖多种架构、数据集和任务,验证了方法的通用性
  4. 理论支撑:提供了噪声偏移的数学分析和近似公式
  5. 实用价值高:仅需少量额外训练即可显著改善现有模型性能

不足

  1. 理论分析局限:基于简化假设,可能无法完全解释复杂的实际情况
  2. 噪声估计器问题:实证分析依赖外部估计器,可能引入额外误差
  3. 计算成本:需要训练额外的无条件分支,增加了训练和推理成本
  4. 适用范围:主要在视觉生成任务上验证,其他模态的适用性未知

影响力

  1. 学术贡献:揭示了去噪生成模型中的重要问题,为领域提供新的研究方向
  2. 实用价值:可直接应用于改善现有模型性能,具有很强的实用性
  3. 方法通用性:与现有引导方法正交互补,具有广泛的适用性

适用场景

  • 大规模图像生成任务
  • 预训练模型的监督微调
  • 需要高质量生成的应用场景
  • 计算资源相对充足的环境

参考文献

论文引用了扩散模型、流模型、引导技术等相关领域的重要工作,包括:

  • Ho et al. (2020): DDPM原始论文
  • Peebles & Xie (2023): DiT架构
  • Ma et al. (2024): SiT架构
  • Ho & Salimans (2021): 无分类器引导
  • Dhariwal & Nichol (2021): 分类器引导

总体评价:这是一篇高质量的研究论文,识别了去噪生成模型中一个重要但被忽视的问题,提出了简洁有效的解决方案,并通过充分的实验验证了方法的有效性和通用性。该工作对扩散模型领域具有重要的学术价值和实用意义。