Deep denoising models require extensive real-world training data, which is challenging to acquire. Current noise synthesis techniques struggle to accurately model complex noise distributions. We propose a novel Realistic Noise Synthesis Diffusor (RNSD) method using diffusion models to address these challenges. By encoding camera settings into a time-aware camera-conditioned affine modulation (TCCAM), RNSD generates more realistic noise distributions under various camera conditions. Additionally, RNSD integrates a multi-scale content-aware module (MCAM), enabling the generation of structured noise with spatial correlations across multiple frequencies. We also introduce Deep Image Prior Sampling (DIPS), a learnable sampling sequence based on depth image prior, which significantly accelerates the sampling process while maintaining the high quality of synthesized noise. Extensive experiments demonstrate that our RNSD method significantly outperforms existing techniques in synthesizing realistic noise under multiple metrics and improving image denoising performance.
academic
Реалистичный синтез шума с использованием диффузионных моделей
Глубокие модели удаления шума требуют большого количества данных обучения из реального мира, которые сложно получить. Существующие методы синтеза шума испытывают трудности с точным моделированием сложных распределений шума. В данной работе предлагается новый метод синтеза реалистичного шума с использованием диффузионных моделей (RNSD) для решения этих проблем. Путём кодирования параметров камеры в виде временно-осведомлённой модуляции аффинного условия камеры (TCCAM), RNSD генерирует более реалистичные распределения шума при различных условиях съёмки. Кроме того, RNSD интегрирует многомасштабный модуль, осведомлённый о содержании (MCAM), который способен генерировать структурированный шум с пространственной корреляцией на нескольких частотах. Статья также представляет обучаемую последовательность выборки, основанную на глубоком приоре изображения — выборку с глубоким приором изображения (DIPS), которая значительно ускоряет процесс выборки при сохранении высокого качества синтезированного шума.
Удаление шума из изображений в глубоком обучении является некорректно поставленной задачей, которая обычно требует контролируемого обучения на большом количестве пар «шумное-чистое изображение». В RGB-области шумное изображение y можно смоделировать как:
y = ISP(s + n)
где s — версия без шума, n — шум после обработки сигнала изображения (ISP).
Нерегулярные и разнообразные распределения шума: параметры постобработки ISP (такие как AWB, CCM, GAMMA) приводят к неоднородным изменениям шума в различных сценах, каналах, уровнях ISO и между пикселями
Структурированность шума и пространственная корреляция: пространственно-коррелированные операции ISP (демозаика, удаление шума, повышение резкости) вводят локальные структурные паттерны в шум, увеличивая его корреляцию с соотношением сигнал-шум
Методы многокадрового усреднения: сложны в получении и не обеспечивают разнообразие типов шума, не могут обрабатывать структурированный шум
Традиционные методы моделирования: моделируют шум как белый гауссовский шум, игнорируя пространственную корреляцию в реальном шуме
Методы на основе GAN: часто сталкиваются с нестабильностью и коллапсом мод из-за отсутствия строгой функции правдоподобия, что приводит к несоответствию между генерируемым и реальным распределением шума
Первое предложение метода синтеза данных реалистичного шума на основе диффузионных моделей (RNSD)
Разработка временно-осведомлённой модуляции аффинного условия камеры (TCCAM), которая обеспечивает лучший контроль над распределением и уровнем генерируемого шума
Построение многомасштабного модуля, осведомлённого о содержании (MCAM), который вводит информацию о нескольких частотах и генерирует более реалистичный шум с пространственной корреляцией
Предложение выборки с глубоким приором изображения (DIPS): на основе наблюдения, что сеть сначала изучает низкочастотные компоненты, затем высокочастотные, сокращает модель с 1000 шагов до всего 5 шагов с потерей точности всего 4%
Достижение передовых результатов на нескольких эталонах и метриках, значительно повышающих производительность моделей удаления шума
Вход: чистое изображение s и параметры камеры cs
Выход: шумное изображение y с реалистичным распределением шума
Цель: генерируемый шум должен соответствовать распределению шума, создаваемому реальной камерой при соответствующих параметрах
RNSD использует реальное шумное изображение y в качестве начального состояния x₀ для построения процесса диффузии. Применяется вероятностная модель DDPM:
Проектирование условной диффузии: первое применение диффузионных моделей к синтезу шума с точным контролем через условия камеры и осведомлённость о содержании
Временно-адаптивная модуляция: TCCAM динамически регулирует вес влияния параметров камеры в зависимости от шага выборки
Связь на нескольких частотах: MCAM моделирует корреляцию между шумом и содержанием изображения на нескольких масштабах
Интеллектуальная стратегия выборки: DIPS значительно повышает эффективность выборки на основе глубокого приора изображения
При использовании синтезированных данных RNSD для обучения DnCNN достигается PSNR 38.11 дБ, близко к 38.40 дБ при обучении на реальных данных, что на 0.75 дБ выше методов SOTA.
Традиционные методы используют гауссово-пуассоновскую модель, но сложные операции ISP нарушают закономерности шума и вводят сложную пространственную корреляцию.
Хотя GAN показывают сильные результаты в подборе распределения данных, они часто сталкиваются с нестабильностью и плохой сходимостью из-за отсутствия явной максимизации правдоподобия.
Диффузионные модели способны обрабатывать сложные и разнообразные распределения реального шума, избегая коллапса мод и обеспечивая более разнообразные результаты, но ранее не применялись эффективно для синтеза шума.
Сильная инновационность метода: первое успешное применение диффузионных моделей к синтезу шума; предложенные TCCAM, MCAM и DIPS имеют чёткую теоретическую мотивацию
Полный экспериментальный дизайн: проверка эффективности метода с нескольких аспектов — качество шума, производительность удаления шума, абляционные исследования
Высокая практическая ценность: значительно повышает производительность моделей удаления шума, решая практическую проблему нехватки реальных данных обучения
Полнота технических деталей: предоставляет полный алгоритм и детали реализации, облегчая воспроизведение
Недостаточный анализ вычислительной сложности: хотя упоминается время вывода, отсутствует подробный анализ вычислительной сложности и сравнение потребления памяти
Ограниченная проверка обобщаемости: в основном проверяется на данных камер смартфонов; обобщаемость на другие типы камер требует дополнительной проверки
Недостаточная глубина теоретического анализа: отсутствует глубокий теоретический анализ того, почему диффузионные модели особенно подходят для синтеза шума
Статья ссылается на важные работы в области диффузионных моделей, моделирования шума и удаления шума из изображений, включая классические статьи о диффузионных моделях DDPM и DDIM, а также соответствующую литературу по важным наборам данных SIDD и DND, обеспечивая прочную теоретическую основу для работы.