2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.

Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.

academic

확산 모델을 이용한 현실적 노이즈 합성

기본 정보

논문 ID: 2305.14022
제목: Realistic Noise Synthesis with Diffusion Models
저자: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
기관: Megvii Technology Inc., University of Electronic Science and Technology of China
분류: cs.CV eess.IV
발표 시간: 2025년 1월 2일 (arXiv v4)
논문 링크: https://arxiv.org/abs/2305.14022
코드 링크: https://github.com/wuqi-coder/RNSD

초록

심층 디노이징 모델은 대량의 실제 학습 데이터를 필요로 하지만, 이러한 데이터를 획득하기는 어렵습니다. 기존의 노이즈 합성 기술은 복잡한 노이즈 분포를 정확하게 모델링하기 어렵습니다. 본 논문은 확산 모델을 사용하여 이러한 문제를 해결하기 위한 새로운 현실적 노이즈 합성 확산기(RNSD) 방법을 제안합니다. 카메라 설정을 시간 인식 카메라 조건 아핀 변조(TCCAM)로 인코딩함으로써, RNSD는 다양한 카메라 조건에서 더욱 현실적인 노이즈 분포를 생성합니다. 또한 RNSD는 다중 스케일 콘텐츠 인식 모듈(MCAM)을 통합하여 여러 주파수에서 공간 상관성을 가진 구조화된 노이즈를 생성할 수 있습니다. 본 논문은 또한 깊이 이미지 사전을 기반으로 한 학습 가능한 샘플링 수열인 깊이 이미지 사전 샘플링(DIPS)을 도입하여 합성 노이즈의 높은 품질을 유지하면서 샘플링 프로세스를 크게 가속화합니다.

연구 배경 및 동기

문제 정의

심층 학습에서의 이미지 디노이징은 병적 문제로, 일반적으로 대량의 노이즈-깨끗한 이미지 쌍으로 감독 학습이 필요합니다. RGB 영역에서 노이즈 이미지 y는 다음과 같이 모델링될 수 있습니다:

y = ISP(s + n)

여기서 s는 노이즈 없는 버전이고, n은 이미지 신호 처리(ISP) 후의 노이즈입니다.

핵심 과제

불규칙하고 다양한 노이즈 분포: ISP 후처리 매개변수(예: AWB, CCM, GAMMA)로 인해 서로 다른 장면, 채널, ISO 레벨 및 픽셀 간에 불균일한 노이즈 변화가 발생합니다.
노이즈의 구조화 및 공간 상관성: 공간 상관 ISP 작업(디모자이킹, 디노이징, 샤프닝)은 노이즈에 국소 구조 패턴을 도입하여 신호 대 잡음비와의 상관성을 증가시킵니다.

기존 방법의 한계

다중 프레임 평균 방법: 획득이 어렵고 다양한 노이즈 유형을 제공할 수 없으며, 구조화된 노이즈를 처리할 수 없습니다.
전통적 모델링 방법: 노이즈를 가우시안 백색 노이즈로 모델링하여 실제 노이즈의 공간 상관성을 무시합니다.
GAN 방법: 엄격한 우도 함수 부재로 인해 불안정성과 모드 붕괴 문제에 직면하기 쉬우며, 생성된 노이즈가 실제 노이즈 분포와 불일치합니다.

핵심 기여

확산 모델 기반의 현실적 노이즈 데이터 합성 방법 RNSD를 처음으로 제안
시간 인식 카메라 조건 아핀 변조(TCCAM) 설계: 생성된 노이즈의 분포와 레벨을 더 잘 제어할 수 있습니다.
다중 스케일 콘텐츠 인식 모듈(MCAM) 구축: 다중 주파수 정보 결합을 도입하여 공간 상관성을 가진 더욱 현실적인 노이즈를 생성합니다.
깊이 이미지 사전 샘플링(DIPS) 제안: 네트워크가 먼저 저주파를 학습한 후 고주파 성분을 학습하는 깊이 이미지 사전을 기반으로 1000단계 모델을 단 5단계로 감소시키며, 정확도 손실은 4%에 불과합니다.
여러 벤치마크 및 지표에서 최첨단 결과 달성: 디노이징 모델 성능을 크게 향상시킵니다.

방법 상세 설명

작업 정의

입력: 깨끗한 이미지 s 및 카메라 설정 cs 출력: 현실적 노이즈 분포를 가진 노이즈 이미지 y 목표: 생성된 노이즈는 해당 설정에서 실제 카메라가 생성하는 노이즈 분포와 일치해야 합니다.

모델 아키텍처

1. 확산 기반 노이즈 생성

RNSD는 실제 노이즈 이미지 y를 초기 상태 x₀로 하여 확산 프로세스를 구성합니다. DDPM의 확률 모델을 채택합니다:

정방향 프로세스:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

역방향 프로세스:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. 시간 인식 카메라 조건 아핀 변조(TCCAM)

다양한 조건에서의 다양한 노이즈 분포를 처리하기 위해, TCCAM은 다섯 가지 핵심 요소를 인코딩합니다:

cs = φ(iso, ss, st, ct, bm)

여기서 iso는 ISO 값, ss는 셔터 속도, st는 센서 유형, ct는 색온도, bm은 밝기 모드입니다.

TCCAM은 동적 설정 메커니즘을 통해 구현됩니다:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. 다중 스케일 콘텐츠 인식 모듈(MCAM)

MCAM은 세 가지 다운샘플링 단계에서 xₜ 및 깨끗한 이미지 s의 특징을 추출합니다:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. 깊이 이미지 사전 샘플링(DIPS)

네트워크가 먼저 저주파를 학습한 후 고주파를 학습한다는 관찰을 기반으로, DIPS는 새로운 샘플링 전략을 제안합니다:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced는 단일 단계 모델 증류를 사용합니다:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

기술 혁신점

조건부 확산 설계: 확산 모델을 노이즈 합성에 처음으로 적용하여 카메라 조건 및 콘텐츠 인식을 통한 정확한 제어를 구현합니다.
시간 적응형 변조: TCCAM은 샘플링 단계에 따라 카메라 설정 영향 가중치를 동적으로 조정합니다.
다중 주파수 결합: MCAM은 여러 스케일에서 노이즈와 이미지 콘텐츠 간의 상관성을 모델링합니다.
지능형 샘플링 전략: DIPS는 깊이 이미지 사전을 기반으로 샘플링 효율을 크게 향상시킵니다.

실험 설정

데이터셋

SIDD: SIDD small(160개 이미지 쌍, 5개 스마트폰 카메라에서 획득)과 SIDD medium(이중 노이즈 샘플링)을 포함합니다.
DND: 50개의 참조 이미지 및 정확한 센서 노이즈 모델을 사용하여 생성된 실제 노이즈 대응 이미지
LSDIR: 84,991개의 고품질 깨끗한 샘플

평가 지표

AKLD: 노이즈 분포 유사성을 평가하며, 낮을수록 좋습니다.
PGap: 노이즈 생성 품질을 평가하며, 낮을수록 좋습니다.
PSNR/SSIM: 디노이징 모델 성능을 평가합니다.

비교 방법

C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA 등의 노이즈 합성 방법
DnCNN, RIDNet, NAFNet 등의 디노이징 모델

구현 세부사항

1000단계 DDPM 학습, 그래디언트 누적 단계 2, Adam 옵티마이저(lr=8×10⁻⁵)
학습 샘플: 128×128 크롭, 배치 크기 16
NVIDIA GeForce RTX 2080 Ti GPU에서 2×10⁵회 반복 학습
EMA 감쇠 0.995

실험 결과

주요 결과

노이즈 생성 품질 비교

방법	AKLD↓	PGap↓
GRDN	0.443	2.28
C2N	0.314	6.85
sRGB2Flow	0.237	6.3
DANet	0.212	2.06
NeCA	0.156	0.97
PNGAN	0.153	0.84
RNSD	0.117	0.54

RNSD는 AKLD에서 SOTA 대비 0.027 향상, PGap 0.30 감소로 기존 방법을 크게 능가합니다.

디노이징 성능 향상

RNSD 합성 데이터로 학습한 DnCNN의 PSNR은 38.11dB에 도달하여 실제 데이터 학습의 38.40dB에 근접하며, SOTA 방법 대비 0.75dB 향상됩니다.

소거 실험

모듈 유효성 검증

방법	AKLD↓
Baseline	0.169
+ concat camera settings	0.137
+ TCCAM	0.126
+ MCAM	0.117

DIPS 샘플링 효율

단계	DDIM	DIPS-Basic	DIPS-Advanced
5	0.356	0.208	0.122
30	0.131	0.117	0.120

DIPS-Advanced는 5단계 샘플링에서 단 4%의 정확도 손실만 있으며, DDIM을 크게 능가합니다.

데이터 증강 효과

노이즈 샘플 증가

SIDD 검증 세트에서 RNSD 증강 후:

DnCNN-B: PSNR 0.57dB 향상
RIDNet: PSNR 0.54dB 향상
NAFNet: PSNR 0.61dB 향상

장면 샘플 증강

LSDIR 데이터를 사용한 장면 다양성 증강:

RIDNet은 SIDD에서 0.33dB, DND에서 0.14dB 향상
NAFNet은 DND에서 0.62dB 크게 향상

결론 및 논의

주요 결론

RNSD는 확산 모델을 현실적 노이즈 합성에 성공적으로 적용한 첫 번째 사례로, 기존 방법을 크게 능가합니다.
TCCAM과 MCAM의 설계는 카메라 조건 제어 및 공간 상관성 모델링 문제를 효과적으로 해결합니다.
DIPS는 샘플링 효율을 크게 향상시켜 실제 응용을 가능하게 합니다.
생성된 합성 데이터는 디노이징 모델의 성능과 일반화 능력을 크게 향상시킵니다.

한계

학습은 실제 노이즈 데이터를 감독으로 필요하므로, 특정 응용 시나리오에서 여전히 데이터 획득의 어려움이 존재합니다.
DIPS가 효율을 향상시키지만, 실제 데이터를 직접 사용하는 것과 비교하면 여전히 추가 계산 오버헤드가 필요합니다.
방법은 주로 RGB 영역 노이즈를 대상으로 하며, RAW 영역 노이즈에 대한 적용 가능성은 추가 검증이 필요합니다.

향후 방향

무감독 또는 약감독 노이즈 합성 방법 탐색
비디오 노이즈 합성 및 기타 이미징 모달리티로 확장
샘플링 효율 추가 최적화로 실시간 노이즈 생성 구현

심층 평가

장점

방법의 혁신성이 강함: 확산 모델을 노이즈 합성에 성공적으로 적용한 첫 번째 사례로, 제안된 TCCAM, MCAM, DIPS는 모두 명확한 이론적 동기를 가집니다.
실험 설계가 충분함: 노이즈 품질, 디노이징 성능, 소거 실험 등 다양한 차원에서 방법의 유효성을 검증합니다.
실제 응용 가치가 높음: 디노이징 모델 성능을 크게 향상시키고 실제 학습 데이터 부족 문제를 해결합니다.
기술 세부사항이 완전함: 완전한 알고리즘 흐름과 구현 세부사항을 제공하여 재현을 용이하게 합니다.

부족한 점

계산 복잡도 분석 부족: 추론 시간이 언급되었지만, 상세한 계산 복잡도 분석 및 메모리 소비 비교가 부족합니다.
일반화 검증 제한적: 주로 스마트폰 카메라 데이터에서 검증되었으며, 다른 유형의 카메라에 대한 일반화 가능성은 추가 검증이 필요합니다.
이론 분석 깊이 부족: 확산 모델이 노이즈 합성에 특히 적합한 이유에 대한 심층적 이론 분석이 부족합니다.

영향력

학술적 기여: 노이즈 합성 분야에 새로운 기술 경로를 제공하여 후속 연구를 촉발할 수 있습니다.
실용적 가치: 디노이징 모델 학습 데이터 부족 문제를 실제로 해결할 수 있습니다.
재현 가능성: 코드와 상세한 구현을 제공하여 연구자들의 사용 및 개선을 용이하게 합니다.

적용 시나리오

이미지 디노이징 모델 학습의 데이터 증강
카메라 노이즈 특성 분석 및 모델링
이미지 품질 평가 및 최적화
계산 사진 관련 응용

참고문헌

본 논문은 확산 모델, 노이즈 모델링, 이미지 디노이징 분야의 중요한 연구를 인용하고 있으며, DDPM, DDIM 등의 고전적 확산 모델 논문과 SIDD, DND 등의 중요 데이터셋 관련 문헌을 포함하여 견고한 이론적 기초를 제공합니다.