2025-11-14T11:10:11.581479

Realistic Noise Synthesis with Diffusion Models

Wu, Han, Jiang et al.
Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic

Реалистичный синтез шума с использованием диффузионных моделей

Основная информация

  • ID статьи: 2305.14022
  • Название: Realistic Noise Synthesis with Diffusion Models
  • Авторы: Qi Wu, Mingyan Han, Ting Jiang, Chengzhi Jiang, Jinting Luo, Man Jiang, Haoqiang Fan, Shuaicheng Liu
  • Учреждения: Megvii Technology Inc., University of Electronic Science and Technology of China
  • Классификация: cs.CV eess.IV
  • Дата публикации: 2 января 2025 г. (arXiv v4)
  • Ссылка на статью: https://arxiv.org/abs/2305.14022
  • Ссылка на код: https://github.com/wuqi-coder/RNSD

Аннотация

Глубокие модели удаления шума требуют большого количества данных обучения из реального мира, которые сложно получить. Существующие методы синтеза шума испытывают трудности с точным моделированием сложных распределений шума. В данной работе предлагается новый метод синтеза реалистичного шума с использованием диффузионных моделей (RNSD) для решения этих проблем. Путём кодирования параметров камеры в виде временно-осведомлённой модуляции аффинного условия камеры (TCCAM), RNSD генерирует более реалистичные распределения шума при различных условиях съёмки. Кроме того, RNSD интегрирует многомасштабный модуль, осведомлённый о содержании (MCAM), который способен генерировать структурированный шум с пространственной корреляцией на нескольких частотах. Статья также представляет обучаемую последовательность выборки, основанную на глубоком приоре изображения — выборку с глубоким приором изображения (DIPS), которая значительно ускоряет процесс выборки при сохранении высокого качества синтезированного шума.

Исследовательский контекст и мотивация

Определение проблемы

Удаление шума из изображений в глубоком обучении является некорректно поставленной задачей, которая обычно требует контролируемого обучения на большом количестве пар «шумное-чистое изображение». В RGB-области шумное изображение y можно смоделировать как:

y = ISP(s + n)

где s — версия без шума, n — шум после обработки сигнала изображения (ISP).

Основные вызовы

  1. Нерегулярные и разнообразные распределения шума: параметры постобработки ISP (такие как AWB, CCM, GAMMA) приводят к неоднородным изменениям шума в различных сценах, каналах, уровнях ISO и между пикселями
  2. Структурированность шума и пространственная корреляция: пространственно-коррелированные операции ISP (демозаика, удаление шума, повышение резкости) вводят локальные структурные паттерны в шум, увеличивая его корреляцию с соотношением сигнал-шум

Ограничения существующих методов

  • Методы многокадрового усреднения: сложны в получении и не обеспечивают разнообразие типов шума, не могут обрабатывать структурированный шум
  • Традиционные методы моделирования: моделируют шум как белый гауссовский шум, игнорируя пространственную корреляцию в реальном шуме
  • Методы на основе GAN: часто сталкиваются с нестабильностью и коллапсом мод из-за отсутствия строгой функции правдоподобия, что приводит к несоответствию между генерируемым и реальным распределением шума

Основные вклады

  1. Первое предложение метода синтеза данных реалистичного шума на основе диффузионных моделей (RNSD)
  2. Разработка временно-осведомлённой модуляции аффинного условия камеры (TCCAM), которая обеспечивает лучший контроль над распределением и уровнем генерируемого шума
  3. Построение многомасштабного модуля, осведомлённого о содержании (MCAM), который вводит информацию о нескольких частотах и генерирует более реалистичный шум с пространственной корреляцией
  4. Предложение выборки с глубоким приором изображения (DIPS): на основе наблюдения, что сеть сначала изучает низкочастотные компоненты, затем высокочастотные, сокращает модель с 1000 шагов до всего 5 шагов с потерей точности всего 4%
  5. Достижение передовых результатов на нескольких эталонах и метриках, значительно повышающих производительность моделей удаления шума

Подробное описание метода

Определение задачи

Вход: чистое изображение s и параметры камеры cs Выход: шумное изображение y с реалистичным распределением шума Цель: генерируемый шум должен соответствовать распределению шума, создаваемому реальной камерой при соответствующих параметрах

Архитектура модели

1. Генерация шума на основе диффузии

RNSD использует реальное шумное изображение y в качестве начального состояния x₀ для построения процесса диффузии. Применяется вероятностная модель DDPM:

Прямой процесс:

q(xₜ|x₀) = ∏ᵀₜ₌₁ q(xₜ|xₜ₋₁)
q(xₜ|xₜ₋₁) = N(xₜ; √(1-βₜ)xₜ₋₁, βₜI)

Обратный процесс:

pθ(x₀:ₜ) = p(xₜ) ∏ᵀₜ₌₁ pθ(xₜ₋₁|xₜ)
pθ(xₜ₋₁|xₜ) = N(xₜ₋₁; μθ(xₜ,s,cs,t), Σₜ)

2. Временно-осведомлённая модуляция аффинного условия камеры (TCCAM)

Для обработки разнообразных распределений шума при различных условиях TCCAM кодирует пять ключевых факторов:

cs = φ(iso, ss, st, ct, bm)

где iso — значение ISO, ss — выдержка, st — тип датчика, ct — цветовая температура, bm — режим яркости.

TCCAM реализуется через динамический механизм установки:

γ, β = MLP₃(MLP₁(sinu_pos(t)) + MLP₂(cs))
F_output = γ * F_input + β

3. Многомасштабный модуль, осведомлённый о содержании (MCAM)

MCAM извлекает признаки xₜ и чистого изображения s на трёх этапах понижающей дискретизации:

F_xₜⁱ = encoderᵢ(xₜ)
F_sⁱ = encoderᵢ(s), i = 1,2,3
F_oⁱ = decoderᵢ(Concat(Fᵢ, F_sⁱ, F_xₜⁱ))

4. Выборка с глубоким приором изображения (DIPS)

На основе наблюдения, что сеть сначала изучает низкочастотные компоненты, затем высокочастотные, DIPS предлагает новую стратегию выборки:

t = t_last + (T - t_last) * (e^(r*(i-1)/(S-1)) - 1)/(e^r - 1)

DIPS-Advanced использует дистилляцию одношагового модели:

∇θ ||ψθ(xₜ, tₙ) - ϵθ(xₙ, tₙ)||

Технические инновации

  1. Проектирование условной диффузии: первое применение диффузионных моделей к синтезу шума с точным контролем через условия камеры и осведомлённость о содержании
  2. Временно-адаптивная модуляция: TCCAM динамически регулирует вес влияния параметров камеры в зависимости от шага выборки
  3. Связь на нескольких частотах: MCAM моделирует корреляцию между шумом и содержанием изображения на нескольких масштабах
  4. Интеллектуальная стратегия выборки: DIPS значительно повышает эффективность выборки на основе глубокого приора изображения

Экспериментальная установка

Наборы данных

  • SIDD: включает SIDD small (160 пар изображений от 5 камер смартфонов) и SIDD medium (двойная выборка шума)
  • DND: 50 эталонных изображений и соответствующие им изображения с реальным шумом датчика, созданные с использованием точной модели шума датчика
  • LSDIR: 84 991 высококачественный чистый образец

Метрики оценки

  • AKLD: оценивает сходство распределения шума, чем ниже, тем лучше
  • PGap: оценивает качество генерации шума, чем ниже, тем лучше
  • PSNR/SSIM: оценивают производительность модели удаления шума

Методы сравнения

  • Методы синтеза шума: C2N, DANet, sRGB2Flow, GRDN, PNGAN, NeCA и др.
  • Модели удаления шума: DnCNN, RIDNet, NAFNet и др.

Детали реализации

  • Обучение DDPM на 1000 шагов, накопление градиентов с шагом 2, оптимизатор Adam (lr=8×10⁻⁵)
  • Образцы обучения: кадрирование 128×128, размер пакета 16
  • Обучение на GPU NVIDIA GeForce RTX 2080 Ti на 2×10⁵ итераций
  • Затухание EMA 0.995

Результаты экспериментов

Основные результаты

Сравнение качества генерации шума

МетодAKLD↓PGap↓
GRDN0.4432.28
C2N0.3146.85
sRGB2Flow0.2376.3
DANet0.2122.06
NeCA0.1560.97
PNGAN0.1530.84
RNSD0.1170.54

RNSD показывает улучшение на 0.027 по AKLD по сравнению с SOTA и снижение PGap на 0.30, значительно превосходя существующие методы.

Повышение производительности удаления шума

При использовании синтезированных данных RNSD для обучения DnCNN достигается PSNR 38.11 дБ, близко к 38.40 дБ при обучении на реальных данных, что на 0.75 дБ выше методов SOTA.

Абляционные исследования

Проверка эффективности модулей

МетодAKLD↓
Baseline0.169
+ concat camera settings0.137
+ TCCAM0.126
+ MCAM0.117

Эффективность выборки DIPS

ШагиDDIMDIPS-BasicDIPS-Advanced
50.3560.2080.122
300.1310.1170.120

DIPS-Advanced при выборке в 5 шагов показывает потерю точности всего 4%, значительно превосходя DDIM.

Эффект увеличения данных

Увеличение образцов шума

На валидационном наборе SIDD с использованием увеличения RNSD:

  • DnCNN-B: улучшение PSNR на 0.57 дБ
  • RIDNet: улучшение PSNR на 0.54 дБ
  • NAFNet: улучшение PSNR на 0.61 дБ

Увеличение образцов сцены

Использование увеличения данных LSDIR для повышения разнообразия сцен:

  • RIDNet улучшается на 0.33 дБ на SIDD и на 0.14 дБ на DND
  • NAFNet значительно улучшается на 0.62 дБ на DND

Связанные работы

Моделирование шума

Традиционные методы используют гауссово-пуассоновскую модель, но сложные операции ISP нарушают закономерности шума и вводят сложную пространственную корреляцию.

Методы на основе GAN

Хотя GAN показывают сильные результаты в подборе распределения данных, они часто сталкиваются с нестабильностью и плохой сходимостью из-за отсутствия явной максимизации правдоподобия.

Методы на основе диффузии

Диффузионные модели способны обрабатывать сложные и разнообразные распределения реального шума, избегая коллапса мод и обеспечивая более разнообразные результаты, но ранее не применялись эффективно для синтеза шума.

Заключение и обсуждение

Основные выводы

  1. RNSD впервые успешно применяет диффузионные модели к синтезу реалистичного шума, значительно превосходя существующие методы
  2. Проектирование TCCAM и MCAM эффективно решает проблемы управления условиями камеры и моделирования пространственной корреляции
  3. DIPS значительно повышает эффективность выборки, делая практическое применение возможным
  4. Генерируемые синтезированные данные значительно повышают производительность и обобщаемость моделей удаления шума

Ограничения

  1. Обучение требует реальных данных шума в качестве контроля, что в некоторых сценариях приложений всё ещё создаёт трудности с получением данных
  2. Хотя DIPS повышает эффективность, по сравнению с прямым использованием реальных данных всё ещё требуются дополнительные вычислительные затраты
  3. Метод в основном ориентирован на шум в RGB-области; применимость к шуму в RAW-области требует дальнейшей проверки

Направления будущих исследований

  1. Исследование методов синтеза шума без контроля или со слабым контролем
  2. Расширение на синтез видеошума и другие режимы визуализации
  3. Дальнейшая оптимизация эффективности выборки для достижения синтеза шума в реальном времени

Глубокая оценка

Преимущества

  1. Сильная инновационность метода: первое успешное применение диффузионных моделей к синтезу шума; предложенные TCCAM, MCAM и DIPS имеют чёткую теоретическую мотивацию
  2. Полный экспериментальный дизайн: проверка эффективности метода с нескольких аспектов — качество шума, производительность удаления шума, абляционные исследования
  3. Высокая практическая ценность: значительно повышает производительность моделей удаления шума, решая практическую проблему нехватки реальных данных обучения
  4. Полнота технических деталей: предоставляет полный алгоритм и детали реализации, облегчая воспроизведение

Недостатки

  1. Недостаточный анализ вычислительной сложности: хотя упоминается время вывода, отсутствует подробный анализ вычислительной сложности и сравнение потребления памяти
  2. Ограниченная проверка обобщаемости: в основном проверяется на данных камер смартфонов; обобщаемость на другие типы камер требует дополнительной проверки
  3. Недостаточная глубина теоретического анализа: отсутствует глубокий теоретический анализ того, почему диффузионные модели особенно подходят для синтеза шума

Влияние

  1. Академический вклад: предоставляет новый технический путь для области синтеза шума, потенциально вызывая последующие исследования
  2. Практическая ценность: может практически решить проблему недостатка данных обучения для моделей удаления шума
  3. Воспроизводимость: предоставляет код и подробную реализацию, облегчая использование и улучшение исследователями

Применимые сценарии

  1. Увеличение данных для обучения моделей удаления шума из изображений
  2. Анализ и моделирование характеристик шума камеры
  3. Оценка и оптимизация качества изображения
  4. Приложения вычислительной фотографии

Библиография

Статья ссылается на важные работы в области диффузионных моделей, моделирования шума и удаления шума из изображений, включая классические статьи о диффузионных моделях DDPM и DDIM, а также соответствующую литературу по важным наборам данных SIDD и DND, обеспечивая прочную теоретическую основу для работы.