2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.
Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic

Realistic Noise Synthesis with Diffusion Models

基本信息

  • 论文ID: 2305.14022
  • 标题: Realistic Noise Synthesis with Diffusion Models
  • 作者: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
  • 机构: Megvii Technology Inc., University of Electronic Science and Technology of China
  • 分类: cs.CV eess.IV
  • 发表时间: 2025年1月2日 (arXiv v4)
  • 论文链接: https://arxiv.org/abs/2305.14022
  • 代码链接: https://github.com/wuqi-coder/RNSD

摘要

深度去噪模型需要大量真实世界的训练数据,但这类数据很难获取。现有的噪声合成技术难以准确建模复杂的噪声分布。本文提出了一种新颖的现实噪声合成扩散器(RNSD)方法,使用扩散模型来解决这些挑战。通过将相机设置编码为时间感知的相机条件仿射调制(TCCAM),RNSD在各种相机条件下生成更真实的噪声分布。此外,RNSD集成了多尺度内容感知模块(MCAM),能够生成在多个频率上具有空间相关性的结构化噪声。文章还引入了基于深度图像先验的可学习采样序列——深度图像先验采样(DIPS),在保持合成噪声高质量的同时显著加速采样过程。

研究背景与动机

问题定义

深度学习中的图像去噪是一个病态问题,通常需要大量的噪声-干净图像对进行监督训练。在RGB域中,噪声图像y可以建模为:

y = ISP(s + n)

其中s是无噪声版本,n是经过图像信号处理(ISP)后的噪声。

核心挑战

  1. 不规则和多样的噪声分布:ISP后处理参数(如AWB、CCM、GAMMA)导致不同场景、通道、ISO级别和像素间的非均匀噪声变化
  2. 噪声的结构化和空间相关性:空间相关的ISP操作(去马赛克、去噪、锐化)为噪声引入局部结构模式,增加其与信噪比的相关性

现有方法局限性

  • 多帧平均方法:难以获得且无法提供多样化的噪声类型,无法处理结构化噪声
  • 传统建模方法:将噪声建模为高斯白噪声,忽略了真实噪声中的空间相关性
  • GAN方法:由于缺乏严格的似然函数,常面临不稳定性和模式崩塌问题,导致生成噪声与真实噪声分布不匹配

核心贡献

  1. 首次提出基于扩散模型的真实噪声数据合成方法RNSD
  2. 设计了时间感知相机条件仿射调制(TCCAM),能够更好地控制生成噪声的分布和级别
  3. 构建了多尺度内容感知模块(MCAM),引入多频率信息耦合,生成具有空间相关性的更真实噪声
  4. 提出深度图像先验采样(DIPS):基于网络先学习低频后学习高频分量的深度图像先验,将1000步模型减少到仅5步,精度损失仅4%
  5. 在多个基准和指标上达到最先进结果,显著提升去噪模型性能

方法详解

任务定义

输入:干净图像s和相机设置cs 输出:具有真实噪声分布的噪声图像y 目标:生成的噪声应与真实相机在相应设置下产生的噪声分布相匹配

模型架构

1. 基于扩散的噪声生成

RNSD将真实噪声图像y作为初始状态x₀来构建扩散过程。采用DDPM的概率模型:

前向过程

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

反向过程

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. 时间感知相机条件仿射调制(TCCAM)

为了处理不同条件下的多样噪声分布,TCCAM编码五个关键因素:

cs = φ(iso, ss, st, ct, bm)

其中iso是ISO值,ss是快门速度,st是传感器类型,ct是色温,bm是亮度模式。

TCCAM通过动态设置机制实现:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. 多尺度内容感知模块(MCAM)

MCAM在三个下采样阶段提取xₜ和干净图像s的特征:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. 深度图像先验采样(DIPS)

基于网络先学习低频后学习高频的观察,DIPS提出新的采样策略:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced使用单步模型蒸馏:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

技术创新点

  1. 条件扩散设计:首次将扩散模型应用于噪声合成,通过相机条件和内容感知实现精确控制
  2. 时间自适应调制:TCCAM根据采样步骤动态调整相机设置影响权重
  3. 多频率耦合:MCAM在多个尺度上建模噪声与图像内容的相关性
  4. 智能采样策略:DIPS基于深度图像先验显著提升采样效率

实验设置

数据集

  • SIDD: 包含SIDD small(160对图像,来自5个智能手机相机)和SIDD medium(双倍噪声采样)
  • DND: 50张参考图像及其使用精确传感器噪声模型生成的真实噪声对应图像
  • LSDIR: 84,991个高质量干净样本

评价指标

  • AKLD: 评估噪声分布相似性,越低越好
  • PGap: 评估噪声生成质量,越低越好
  • PSNR/SSIM: 评估去噪模型性能

对比方法

  • C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA等噪声合成方法
  • DnCNN, RIDNet, NAFNet等去噪模型

实现细节

  • 1000步DDPM训练,梯度累积步长2,Adam优化器(lr=8×10⁻⁵)
  • 训练样本:128×128裁剪,批大小16
  • NVIDIA GeForce RTX 2080 Ti GPU训练2×10⁵次迭代
  • EMA衰减0.995

实验结果

主要结果

噪声生成质量对比

方法AKLD↓PGap↓
GRDN0.4432.28
C2N0.3146.85
sRGB2Flow0.2376.3
DANet0.2122.06
NeCA0.1560.97
PNGAN0.1530.84
RNSD0.1170.54

RNSD在AKLD上比SOTA提升0.027,PGap降低0.30,显著优于现有方法。

去噪性能提升

使用RNSD合成数据训练DnCNN的PSNR达到38.11dB,接近真实数据训练的38.40dB,比SOTA方法提升0.75dB。

消融实验

模块有效性验证

方法AKLD↓
Baseline0.169
+ concat camera settings0.137
+ TCCAM0.126
+ MCAM0.117

DIPS采样效率

步数DDIMDIPS-BasicDIPS-Advanced
50.3560.2080.122
300.1310.1170.120

DIPS-Advanced在5步采样下仅有4%精度损失,显著优于DDIM。

数据增强效果

增加噪声样本

在SIDD验证集上,使用RNSD增强后:

  • DnCNN-B: PSNR提升0.57dB
  • RIDNet: PSNR提升0.54dB
  • NAFNet: PSNR提升0.61dB

场景样本增强

使用LSDIR数据增强场景多样性:

  • RIDNet在SIDD上提升0.33dB,在DND上提升0.14dB
  • NAFNet在DND上显著提升0.62dB

相关工作

噪声建模

传统方法使用高斯-泊松模型,但复杂的ISP操作破坏了噪声规律性并引入复杂的空间相关性。

GAN方法

虽然GAN在数据分布拟合方面表现强劲,但由于缺乏显式最大似然,常面临不稳定性和收敛性差的问题。

扩散方法

扩散模型能够处理复杂多样的真实噪声分布,避免模式崩塌并提供更多样化的结果,但此前未有效应用于合成噪声生成。

结论与讨论

主要结论

  1. RNSD首次成功将扩散模型应用于真实噪声合成,显著优于现有方法
  2. TCCAM和MCAM的设计有效解决了相机条件控制和空间相关性建模问题
  3. DIPS大幅提升采样效率,使实际应用成为可能
  4. 生成的合成数据能显著提升去噪模型性能和泛化能力

局限性

  1. 训练需要真实噪声数据作为监督,在某些应用场景下仍然存在数据获取困难
  2. 虽然DIPS提升了效率,但相比直接使用真实数据仍需额外计算开销
  3. 方法主要针对RGB域噪声,对RAW域噪声的适用性需要进一步验证

未来方向

  1. 探索无监督或弱监督的噪声合成方法
  2. 扩展到视频噪声合成和其他成像模态
  3. 进一步优化采样效率,实现实时噪声生成

深度评价

优点

  1. 方法创新性强:首次将扩散模型成功应用于噪声合成,提出的TCCAM、MCAM、DIPS都具有明确的理论动机
  2. 实验设计充分:从噪声质量、去噪性能、消融实验等多个维度验证方法有效性
  3. 实际应用价值高:显著提升去噪模型性能,解决了真实训练数据稀缺的实际问题
  4. 技术细节完整:提供了完整的算法流程和实现细节,便于复现

不足

  1. 计算复杂度分析不足:虽然提到了推理时间,但缺乏详细的计算复杂度分析和内存消耗对比
  2. 泛化性验证有限:主要在智能手机相机数据上验证,对其他类型相机的泛化性需要更多验证
  3. 理论分析深度不够:缺乏对为什么扩散模型特别适合噪声合成的深入理论分析

影响力

  1. 学术贡献:为噪声合成领域提供了新的技术路径,可能引发后续研究
  2. 实用价值:能够实际解决去噪模型训练数据不足的问题
  3. 可复现性:提供了代码和详细实现,便于研究者使用和改进

适用场景

  1. 图像去噪模型训练的数据增强
  2. 相机噪声特性分析和建模
  3. 图像质量评估和优化
  4. 计算摄影相关应用

参考文献

论文引用了扩散模型、噪声建模、图像去噪等领域的重要工作,包括DDPM、DDIM等经典扩散模型论文,以及SIDD、DND等重要数据集的相关文献,为工作提供了坚实的理论基础。