2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.
Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic

拡散モデルを用いたリアルなノイズ合成

基本情報

  • 論文ID: 2305.14022
  • タイトル: Realistic Noise Synthesis with Diffusion Models
  • 著者: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
  • 所属機関: Megvii Technology Inc.、中国電子科技大学
  • 分類: cs.CV eess.IV
  • 発表日: 2025年1月2日 (arXiv v4)
  • 論文リンク: https://arxiv.org/abs/2305.14022
  • コードリンク: https://github.com/wuqi-coder/RNSD

要旨

深層ノイズ除去モデルは大量の実世界の訓練データを必要としていますが、このようなデータの取得は困難です。既存のノイズ合成技術は複雑なノイズ分布の正確なモデリングに課題があります。本論文では、拡散モデルを用いてこれらの課題に対処する新規なリアルノイズ合成拡散器(RNSD)手法を提案しています。カメラ設定を時間認識カメラ条件アフィン変調(TCCAM)として符号化することで、RNSDは様々なカメラ条件下でより現実的なノイズ分布を生成します。さらに、RNSDは多スケール内容認識モジュール(MCAM)を統合し、複数の周波数で空間相関性を有する構造化ノイズを生成できます。また、深層画像事前分布に基づく学習可能なサンプリング列——深層画像事前分布サンプリング(DIPS)を導入し、合成ノイズの高品質を保ちながらサンプリング過程を大幅に加速します。

研究背景と動機

問題定義

深層学習における画像ノイズ除去は不良設定問題であり、通常、監督訓練のために大量のノイズ-クリーン画像対を必要とします。RGB領域では、ノイズ画像yは以下のようにモデル化できます:

y = ISP(s + n)

ここで、sはノイズなしバージョン、nは画像信号処理(ISP)後のノイズです。

中核的な課題

  1. 不規則で多様なノイズ分布: ISP後処理パラメータ(AWB、CCM、GAMMAなど)は、異なるシーン、チャネル、ISO レベル、ピクセル間の不均一なノイズ変動を引き起こします
  2. ノイズの構造化と空間相関性: 空間相関ISP操作(デモザイク、ノイズ除去、シャープニング)はノイズに局所構造パターンを導入し、信号対ノイズ比との相関性を増加させます

既存手法の限界

  • マルチフレーム平均法: 取得が困難で、多様なノイズタイプを提供できず、構造化ノイズに対応できません
  • 従来のモデリング手法: ノイズをガウス白ノイズとしてモデル化し、実ノイズの空間相関性を無視しています
  • GAN手法: 厳密な尤度関数の欠如により、不安定性とモード崩壊に直面することが多く、生成ノイズと実ノイズ分布の不一致につながります

中核的な貢献

  1. 拡散モデルに基づくリアルノイズデータ合成手法RNSDを初めて提案
  2. 時間認識カメラ条件アフィン変調(TCCAM)を設計し、生成ノイズの分布とレベルをより良く制御できます
  3. 多スケール内容認識モジュール(MCAM)を構築し、多周波数情報カップリングを導入して、空間相関性を有するより現実的なノイズを生成します
  4. 深層画像事前分布サンプリング(DIPS)を提案: ネットワークが低周波成分を先に学習し、高周波成分を後に学習する深層画像事前分布に基づき、1000ステップモデルをわずか5ステップに削減し、精度損失は4%のみです
  5. 複数のベンチマークと指標で最先端の結果を達成し、ノイズ除去モデルのパフォーマンスを大幅に向上させます

手法の詳細

タスク定義

入力: クリーン画像sとカメラ設定cs 出力: リアルなノイズ分布を有するノイズ画像y 目標: 生成されたノイズは、対応する設定下で実カメラが生成するノイズ分布と一致する必要があります

モデルアーキテクチャ

1. 拡散ベースのノイズ生成

RNSDは実ノイズ画像yを初期状態x₀として拡散過程を構築します。DDPMの確率モデルを採用しています:

前向き過程:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

逆向き過程:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. 時間認識カメラ条件アフィン変調(TCCAM)

異なる条件下での多様なノイズ分布に対処するため、TCCAMは5つの主要因子を符号化します:

cs = φ(iso, ss, st, ct, bm)

ここで、isoはISO値、ssはシャッタースピード、stはセンサータイプ、ctは色温度、bmは明るさモードです。

TCCAMは動的設定メカニズムを通じて実装されます:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. 多スケール内容認識モジュール(MCAM)

MCAMは3つのダウンサンプリングステージでxₜとクリーン画像sの特徴を抽出します:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. 深層画像事前分布サンプリング(DIPS)

ネットワークが低周波を先に学習し、高周波を後に学習するという観察に基づき、DIPSは新しいサンプリング戦略を提案します:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advancedは単一ステップモデル蒸留を使用します:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

技術的革新点

  1. 条件付き拡散設計: 拡散モデルをノイズ合成に初めて適用し、カメラ条件と内容認識を通じて正確な制御を実現します
  2. 時間適応変調: TCCAMはサンプリングステップに応じてカメラ設定の影響重みを動的に調整します
  3. 多周波数カップリング: MCAMは複数のスケールでノイズと画像内容の相関性をモデル化します
  4. インテリジェントサンプリング戦略: DIPSは深層画像事前分布に基づきサンプリング効率を大幅に向上させます

実験設定

データセット

  • SIDD: SIDD small(160画像対、5つのスマートフォンカメラから)とSIDD medium(2倍のノイズサンプリング)を含みます
  • DND: 50の参照画像と、正確なセンサーノイズモデルを使用して生成された実ノイズ対応画像
  • LSDIR: 84,991の高品質クリーンサンプル

評価指標

  • AKLD: ノイズ分布の類似性を評価、低いほど良い
  • PGap: ノイズ生成品質を評価、低いほど良い
  • PSNR/SSIM: ノイズ除去モデルのパフォーマンスを評価

比較手法

  • C2N、DANet、sRGB2Flow、GRDN、PNGAN、NeCAなどのノイズ合成手法
  • DnCNN、RIDNet、NAFNetなどのノイズ除去モデル

実装の詳細

  • 1000ステップDDPM訓練、勾配累積ステップ2、Adam最適化器(lr=8×10⁻⁵)
  • 訓練サンプル: 128×128クロップ、バッチサイズ16
  • NVIDIA GeForce RTX 2080 Ti GPU上で2×10⁵回の反復訓練
  • EMA減衰0.995

実験結果

主要な結果

ノイズ生成品質の比較

手法AKLD↓PGap↓
GRDN0.4432.28
C2N0.3146.85
sRGB2Flow0.2376.3
DANet0.2122.06
NeCA0.1560.97
PNGAN0.1530.84
RNSD0.1170.54

RNSDはAKLDで最先端手法より0.027改善し、PGapを0.30低下させ、既存手法を大幅に上回ります。

ノイズ除去性能の向上

RNSDで合成されたデータを使用してDnCNNを訓練したPSNRは38.11dBに達し、実データで訓練した38.40dBに近く、最先端手法より0.75dB改善しています。

アブレーション実験

モジュール有効性の検証

手法AKLD↓
ベースライン0.169
+ カメラ設定連結0.137
+ TCCAM0.126
+ MCAM0.117

DIPSサンプリング効率

ステップ数DDIMDIPS-BasicDIPS-Advanced
50.3560.2080.122
300.1310.1170.120

DIPS-Advancedは5ステップサンプリングで精度損失わずか4%で、DDIMを大幅に上回ります。

データ拡張効果

ノイズサンプル数の増加

SIDD検証セット上で、RNSD拡張後:

  • DnCNN-B: PSNR 0.57dB改善
  • RIDNet: PSNR 0.54dB改善
  • NAFNet: PSNR 0.61dB改善

シーンサンプル拡張

LSIDRデータを使用してシーン多様性を拡張:

  • RIDNetはSIDD上で0.33dB改善、DND上で0.14dB改善
  • NAFNetはDND上で0.62dB大幅改善

関連研究

ノイズモデリング

従来の手法はガウス-ポアソンモデルを使用していますが、複雑なISP操作はノイズの規則性を破壊し、複雑な空間相関性を導入します。

GAN手法

GANはデータ分布フィッティングで強力なパフォーマンスを示していますが、明示的な最大尤度の欠如により、不安定性と収束性の低さに直面することが多いです。

拡散手法

拡散モデルは複雑で多様な実ノイズ分布を処理でき、モード崩壊を回避し、より多様な結果を提供できますが、これまでノイズ合成生成に効果的に適用されていません。

結論と考察

主要な結論

  1. RNSDは拡散モデルをリアルノイズ合成に初めて成功裏に適用し、既存手法を大幅に上回ります
  2. TCCAMとMCAMの設計はカメラ条件制御と空間相関性モデリングの問題を効果的に解決します
  3. DIPSはサンプリング効率を大幅に向上させ、実用的な応用を可能にします
  4. 生成された合成データはノイズ除去モデルのパフォーマンスと汎化能力を大幅に向上させることができます

限界

  1. 訓練は実ノイズデータを監督として必要とし、特定の応用シーンではデータ取得が依然困難です
  2. DIPSは効率を向上させていますが、実データを直接使用するのに比べて追加の計算オーバーヘッドが必要です
  3. 手法は主にRGB領域ノイズを対象としており、RAW領域ノイズへの適用可能性はさらなる検証が必要です

今後の方向性

  1. 教師なしまたは弱教師ノイズ合成手法の探索
  2. ビデオノイズ合成および他のイメージングモダリティへの拡張
  3. サンプリング効率のさらなる最適化、リアルタイムノイズ生成の実現

深層評価

利点

  1. 手法の革新性が強い: 拡散モデルをノイズ合成に初めて成功裏に適用し、提案されたTCCAM、MCAM、DIPSはすべて明確な理論的動機を有しています
  2. 実験設計が充分: ノイズ品質、ノイズ除去性能、アブレーション実験など複数の側面から手法の有効性を検証しています
  3. 実用的応用価値が高い: ノイズ除去モデルのパフォーマンスを大幅に向上させ、実訓練データ不足の実際の問題を解決します
  4. 技術詳細が完全: 完全なアルゴリズムフローと実装詳細を提供し、再現を容易にします

不足

  1. 計算複雑度分析が不足: 推論時間に言及していますが、詳細な計算複雑度分析とメモリ消費の比較が不足しています
  2. 汎化性検証が限定的: 主にスマートフォンカメラデータで検証されており、他のタイプのカメラへの汎化性はさらなる検証が必要です
  3. 理論分析の深さが不十分: 拡散モデルがノイズ合成に特に適している理由についての深い理論分析が不足しています

影響力

  1. 学術的貢献: ノイズ合成領域に新しい技術経路を提供し、後続研究を触発する可能性があります
  2. 実用価値: ノイズ除去モデル訓練のデータ不足問題を実際に解決できます
  3. 再現可能性: コードと詳細な実装を提供し、研究者が使用と改善を容易にします

適用シーン

  1. 画像ノイズ除去モデル訓練のデータ拡張
  2. カメラノイズ特性分析とモデリング
  3. 画像品質評価と最適化
  4. 計算写真関連応用

参考文献

論文は拡散モデル、ノイズモデリング、画像ノイズ除去領域の重要な研究を引用しており、DDPM、DDIMなどの古典的な拡散モデル論文、およびSIDD、DNDなどの重要なデータセット関連文献を含み、作業に堅実な理論基盤を提供しています。