Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
論文ID : 2305.14022タイトル : Realistic Noise Synthesis with Diffusion Models著者 : Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu所属機関 : Megvii Technology Inc.、中国電子科技大学分類 : cs.CV eess.IV発表日 : 2025年1月2日 (arXiv v4)論文リンク : https://arxiv.org/abs/2305.14022 コードリンク : https://github.com/wuqi-coder/RNSD 深層ノイズ除去モデルは大量の実世界の訓練データを必要としていますが、このようなデータの取得は困難です。既存のノイズ合成技術は複雑なノイズ分布の正確なモデリングに課題があります。本論文では、拡散モデルを用いてこれらの課題に対処する新規なリアルノイズ合成拡散器(RNSD)手法を提案しています。カメラ設定を時間認識カメラ条件アフィン変調(TCCAM)として符号化することで、RNSDは様々なカメラ条件下でより現実的なノイズ分布を生成します。さらに、RNSDは多スケール内容認識モジュール(MCAM)を統合し、複数の周波数で空間相関性を有する構造化ノイズを生成できます。また、深層画像事前分布に基づく学習可能なサンプリング列——深層画像事前分布サンプリング(DIPS)を導入し、合成ノイズの高品質を保ちながらサンプリング過程を大幅に加速します。
深層学習における画像ノイズ除去は不良設定問題であり、通常、監督訓練のために大量のノイズ-クリーン画像対を必要とします。RGB領域では、ノイズ画像yは以下のようにモデル化できます:
ここで、sはノイズなしバージョン、nは画像信号処理(ISP)後のノイズです。
不規則で多様なノイズ分布 : ISP後処理パラメータ(AWB、CCM、GAMMAなど)は、異なるシーン、チャネル、ISO レベル、ピクセル間の不均一なノイズ変動を引き起こしますノイズの構造化と空間相関性 : 空間相関ISP操作(デモザイク、ノイズ除去、シャープニング)はノイズに局所構造パターンを導入し、信号対ノイズ比との相関性を増加させますマルチフレーム平均法 : 取得が困難で、多様なノイズタイプを提供できず、構造化ノイズに対応できません従来のモデリング手法 : ノイズをガウス白ノイズとしてモデル化し、実ノイズの空間相関性を無視していますGAN手法 : 厳密な尤度関数の欠如により、不安定性とモード崩壊に直面することが多く、生成ノイズと実ノイズ分布の不一致につながります拡散モデルに基づくリアルノイズデータ合成手法RNSDを初めて提案 時間認識カメラ条件アフィン変調(TCCAM)を設計 し、生成ノイズの分布とレベルをより良く制御できます多スケール内容認識モジュール(MCAM)を構築 し、多周波数情報カップリングを導入して、空間相関性を有するより現実的なノイズを生成します深層画像事前分布サンプリング(DIPS)を提案 : ネットワークが低周波成分を先に学習し、高周波成分を後に学習する深層画像事前分布に基づき、1000ステップモデルをわずか5ステップに削減し、精度損失は4%のみです複数のベンチマークと指標で最先端の結果を達成 し、ノイズ除去モデルのパフォーマンスを大幅に向上させます入力: クリーン画像sとカメラ設定cs
出力: リアルなノイズ分布を有するノイズ画像y
目標: 生成されたノイズは、対応する設定下で実カメラが生成するノイズ分布と一致する必要があります
RNSDは実ノイズ画像yを初期状態x₀として拡散過程を構築します。DDPMの確率モデルを採用しています:
前向き過程 :
q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)
逆向き過程 :
pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)
異なる条件下での多様なノイズ分布に対処するため、TCCAMは5つの主要因子を符号化します:
cs = φ(iso, ss, st, ct, bm)
ここで、isoはISO値、ssはシャッタースピード、stはセンサータイプ、ctは色温度、bmは明るさモードです。
TCCAMは動的設定メカニズムを通じて実装されます:
γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β
MCAMは3つのダウンサンプリングステージでxₜとクリーン画像sの特徴を抽出します:
F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))
ネットワークが低周波を先に学習し、高周波を後に学習するという観察に基づき、DIPSは新しいサンプリング戦略を提案します:
t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)
DIPS-Advanced は単一ステップモデル蒸留を使用します:
∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||
条件付き拡散設計 : 拡散モデルをノイズ合成に初めて適用し、カメラ条件と内容認識を通じて正確な制御を実現します時間適応変調 : TCCAMはサンプリングステップに応じてカメラ設定の影響重みを動的に調整します多周波数カップリング : MCAMは複数のスケールでノイズと画像内容の相関性をモデル化しますインテリジェントサンプリング戦略 : DIPSは深層画像事前分布に基づきサンプリング効率を大幅に向上させますSIDD : SIDD small(160画像対、5つのスマートフォンカメラから)とSIDD medium(2倍のノイズサンプリング)を含みますDND : 50の参照画像と、正確なセンサーノイズモデルを使用して生成された実ノイズ対応画像LSDIR : 84,991の高品質クリーンサンプルAKLD : ノイズ分布の類似性を評価、低いほど良いPGap : ノイズ生成品質を評価、低いほど良いPSNR/SSIM : ノイズ除去モデルのパフォーマンスを評価C2N、DANet、sRGB2Flow、GRDN、PNGAN、NeCAなどのノイズ合成手法 DnCNN、RIDNet、NAFNetなどのノイズ除去モデル 1000ステップDDPM訓練、勾配累積ステップ2、Adam最適化器(lr=8×10⁻⁵) 訓練サンプル: 128×128クロップ、バッチサイズ16 NVIDIA GeForce RTX 2080 Ti GPU上で2×10⁵回の反復訓練 EMA減衰0.995 手法 AKLD↓ PGap↓ GRDN 0.443 2.28 C2N 0.314 6.85 sRGB2Flow 0.237 6.3 DANet 0.212 2.06 NeCA 0.156 0.97 PNGAN 0.153 0.84 RNSD 0.117 0.54
RNSDはAKLDで最先端手法より0.027改善し、PGapを0.30低下させ、既存手法を大幅に上回ります。
RNSDで合成されたデータを使用してDnCNNを訓練したPSNRは38.11dBに達し、実データで訓練した38.40dBに近く、最先端手法より0.75dB改善しています。
手法 AKLD↓ ベースライン 0.169 + カメラ設定連結 0.137 + TCCAM 0.126 + MCAM 0.117
ステップ数 DDIM DIPS-Basic DIPS-Advanced 5 0.356 0.208 0.122 30 0.131 0.117 0.120
DIPS-Advancedは5ステップサンプリングで精度損失わずか4%で、DDIMを大幅に上回ります。
SIDD検証セット上で、RNSD拡張後:
DnCNN-B: PSNR 0.57dB改善 RIDNet: PSNR 0.54dB改善 NAFNet: PSNR 0.61dB改善 LSIDRデータを使用してシーン多様性を拡張:
RIDNetはSIDD上で0.33dB改善、DND上で0.14dB改善 NAFNetはDND上で0.62dB大幅改善 従来の手法はガウス-ポアソンモデルを使用していますが、複雑なISP操作はノイズの規則性を破壊し、複雑な空間相関性を導入します。
GANはデータ分布フィッティングで強力なパフォーマンスを示していますが、明示的な最大尤度の欠如により、不安定性と収束性の低さに直面することが多いです。
拡散モデルは複雑で多様な実ノイズ分布を処理でき、モード崩壊を回避し、より多様な結果を提供できますが、これまでノイズ合成生成に効果的に適用されていません。
RNSDは拡散モデルをリアルノイズ合成に初めて成功裏に適用し、既存手法を大幅に上回ります TCCAMとMCAMの設計はカメラ条件制御と空間相関性モデリングの問題を効果的に解決します DIPSはサンプリング効率を大幅に向上させ、実用的な応用を可能にします 生成された合成データはノイズ除去モデルのパフォーマンスと汎化能力を大幅に向上させることができます 訓練は実ノイズデータを監督として必要とし、特定の応用シーンではデータ取得が依然困難です DIPSは効率を向上させていますが、実データを直接使用するのに比べて追加の計算オーバーヘッドが必要です 手法は主にRGB領域ノイズを対象としており、RAW領域ノイズへの適用可能性はさらなる検証が必要です 教師なしまたは弱教師ノイズ合成手法の探索 ビデオノイズ合成および他のイメージングモダリティへの拡張 サンプリング効率のさらなる最適化、リアルタイムノイズ生成の実現 手法の革新性が強い : 拡散モデルをノイズ合成に初めて成功裏に適用し、提案されたTCCAM、MCAM、DIPSはすべて明確な理論的動機を有しています実験設計が充分 : ノイズ品質、ノイズ除去性能、アブレーション実験など複数の側面から手法の有効性を検証しています実用的応用価値が高い : ノイズ除去モデルのパフォーマンスを大幅に向上させ、実訓練データ不足の実際の問題を解決します技術詳細が完全 : 完全なアルゴリズムフローと実装詳細を提供し、再現を容易にします計算複雑度分析が不足 : 推論時間に言及していますが、詳細な計算複雑度分析とメモリ消費の比較が不足しています汎化性検証が限定的 : 主にスマートフォンカメラデータで検証されており、他のタイプのカメラへの汎化性はさらなる検証が必要です理論分析の深さが不十分 : 拡散モデルがノイズ合成に特に適している理由についての深い理論分析が不足しています学術的貢献 : ノイズ合成領域に新しい技術経路を提供し、後続研究を触発する可能性があります実用価値 : ノイズ除去モデル訓練のデータ不足問題を実際に解決できます再現可能性 : コードと詳細な実装を提供し、研究者が使用と改善を容易にします画像ノイズ除去モデル訓練のデータ拡張 カメラノイズ特性分析とモデリング 画像品質評価と最適化 計算写真関連応用 論文は拡散モデル、ノイズモデリング、画像ノイズ除去領域の重要な研究を引用しており、DDPM、DDIMなどの古典的な拡散モデル論文、およびSIDD、DNDなどの重要なデータセット関連文献を含み、作業に堅実な理論基盤を提供しています。