2025-11-18T05:16:13.529071

Local MAP Sampling for Diffusion Models

Zhang, Brekelmans, Steeg
Diffusion Posterior Sampling (DPS) provides a principled Bayesian approach to inverse problems by sampling from $p(x_0 \mid y)$. However, in practice, the goal of inverse problem solving is not to cover the posterior but to recover the most accurate reconstruction, where optimization-based diffusion solvers often excel despite lacking a clear probabilistic foundation. We introduce Local MAP Sampling (LMAPS), a new inference framework that iteratively solving local MAP subproblems along the diffusion trajectory. This perspective clarifies their connection to global MAP estimation and DPS, offering a unified probabilistic interpretation for optimization-based methods. Building on this foundation, we develop practical algorithms with a probabilistically interpretable covariance approximation, a reformulated objective for stability and interpretability, and a gradient approximation for non-differentiable operators. Across a broad set of image restoration and scientific tasks, LMAPS achieves state-of-the-art performance, including $\geq 2$ dB gains on motion deblurring, JPEG restoration, and quantization, and $>1.5$ dB improvements on inverse scattering benchmarks.
academic

확산 모델을 위한 국소 MAP 샘플링

기본 정보

  • 논문 ID: 2510.07343
  • 제목: Local MAP Sampling for Diffusion Models
  • 저자: Shaorong Zhang (UC Riverside), Rob Brekelmans (Vector Institute), Greg Ver Steeg (UC Riverside)
  • 분류: cs.GR cs.AI eess.IV
  • 발표 시간/학회: 사전 인쇄본 (검토 중)
  • 논문 링크: https://arxiv.org/abs/2510.07343

초록

확산 후방 샘플링(DPS)은 p(x0y)p(x_0 \mid y)에서 샘플링하여 역문제에 대한 원칙적인 베이지안 방법을 제공합니다. 그러나 실제로 역문제 해결의 목표는 후방 분포를 커버하는 것이 아니라 가장 정확한 재구성 결과를 복구하는 것이며, 최적화 기반 확산 해결기는 일반적으로 명확한 확률 기초가 부족함에도 불구하고 이 측면에서 우수한 성능을 보입니다. 본 논문은 확산 궤적을 따라 국소 MAP 부분 문제를 반복적으로 해결하는 새로운 추론 프레임워크인 국소 MAP 샘플링(LMAPS)을 소개합니다. 이러한 관점은 전역 MAP 추정 및 DPS와의 연결을 명확히 하며, 최적화 기반 방법에 대한 통일된 확률 해석을 제공합니다. 이 기초를 바탕으로, 우리는 확률적으로 해석 가능한 공분산 근사, 안정성 및 해석 가능성을 갖춘 재구성된 목적 함수, 그리고 미분 불가능 연산자의 기울기 근사를 갖춘 실용적인 알고리즘을 개발했습니다.

연구 배경 및 동기

문제 배경

확산 모델은 역문제 해결에서 두 가지 주요 과제에 직면합니다:

  1. 목표 불일치: DPS는 후방 분포 p(x0y)p(x_0|y)에서 샘플링을 목표로 하지만, 역문제 해결의 실제 목표는 다양성 샘플링이 아닌 가장 정확한 재구성을 얻는 것입니다
  2. 이론적 기초 부재: Resample, DiffPIR, DCDP 등과 같은 최적화 기반 확산 해결기는 성능상 우수하지만 명확한 확률 이론적 기초가 부족합니다

연구 동기

  • 실용성 지향: 역문제 평가 프로토콜은 일반적으로 단일 기준 참조와 비교되며, 커버리지 또는 다양성에 대한 보상을 제공하지 않습니다
  • 이론적 통일: 최적화 방법에 대한 확률 해석을 제공하고, MAP 추정 및 DPS와의 관계를 명확히 할 필요가 있습니다
  • 성능 향상: 이론적 기초를 유지하면서 더 나은 재구성 성능을 달성합니다

핵심 기여

  1. 이론적 기여: 확산 궤적을 따라 국소 MAP 부분 문제를 반복적으로 해결하는 국소 MAP 샘플링(LMAPS) 프레임워크를 제안하고, 전역 MAP 및 DPS와의 관계를 분석하며, TMPD 및 최적화 기반 역문제 방법을 통일합니다
  2. 방법론적 기여:
    • 확률적으로 해석 가능한 공분산 근사를 제공하여 기존 해결기의 휴리스틱 선택을 대체합니다
    • 해석 가능한 매개변수 및 향상된 안정성을 위해 목적 함수를 재구성합니다
    • 미분 불가능 연산자에 대한 기울기 근사 전략을 개발합니다
  3. 실험적 기여: 10개의 이미지 복원 작업 및 3개의 과학적 역문제에서 검증하여, 46/60개의 FFHQ/ImageNet 사례에서 최고의 결과를 달성하고, 동작 제거, JPEG 복원 및 양자화 작업에서 ≥2dB PSNR 향상을 얻습니다

방법 상세 설명

작업 정의

역문제는 사전 분포 π(x0)\pi(x_0) 및 노이즈 측정값 yRmy \in \mathbb{R}^m에서 미지의 이미지 또는 신호 x0Rnx_0 \in \mathbb{R}^n을 복구하는 것을 목표로 합니다: y=H(x0)+zy = H(x_0) + z 여기서 H():RnRmH(\cdot): \mathbb{R}^n \to \mathbb{R}^m은 전진 연산자이고, zN(0,σy2I)z \sim \mathcal{N}(0, \sigma_y^2 I)는 측정 노이즈입니다.

핵심 이론 프레임워크

전역 MAP vs 국소 MAP

전역 MAP은 완전한 후방을 직접 최적화합니다: x0MAP:=argmaxx0p(x0y)x_0^{\text{MAP}} := \arg\max_{x_0} p(x_0|y)

국소 MAP은 각 시간 단계 tt에서 조건부 최적화 문제를 해결합니다: x0(t,xt,y):=argmaxp(x0xt,y)x_0^*(t, x_t, y) := \arg\max p(x_0|x_t, y)xtΔt=g(x0,xt,ϵ),ϵN(0,I)x_{t-\Delta t} = g(x_0^*, x_t, \epsilon), \quad \epsilon \sim \mathcal{N}(0,I)

DPS 및 DAPS와의 관계

  • DPS: 조건부 평균 E[x0xt,y]E[x_0|x_t, y]를 사용합니다
  • DAPS: p(x0xt,y)p(x_0|x_t, y)에서 샘플링합니다
  • LMAPS: 조건부 모드 argmaxp(x0xt,y)\arg\max p(x_0|x_t, y)를 사용합니다

핵심 통찰: p(x0xt,y)p(x_0|x_t, y)가 가우스 분포일 때만 DPS와 LMAPS가 동등합니다.

실용적 알고리즘 설계

공분산 근사

등방성 근사를 채택합니다: Σ0tkSNRI,SNR:=αt2σt2\Sigma_{0|t} \approx \frac{k}{\text{SNR}} I, \quad \text{SNR} := \frac{\alpha_t^2}{\sigma_t^2}

목적 함수 재구성

원래 목적: x0=argmin{SNRkx0m0t2+1σy2yH(x0)2}x_0^* = \arg\min \left\{\frac{\text{SNR}}{k}\|x_0 - m_{0|t}\|^2 + \frac{1}{\sigma_y^2}\|y - H(x_0)\|^2\right\}

다음과 같이 재구성됩니다: x0=argmin{(1μt)12x0m0t2+μtk2yH(x0)2}x_0^* = \arg\min \left\{(1-\mu_t)\frac{1}{2}\|x_0 - m_{0|t}\|^2 + \mu_t k_2\|y - H(x_0)\|^2\right\}

여기서 μt=σt2σt2+k12(0,1)\mu_t = \frac{\sigma_t^2}{\sigma_t^2 + k_1^2} \in (0,1)이며, 다음을 구현합니다:

  • 볼록 조합 해석: 가중치 (1μt)(1-\mu_t)μt\mu_t
  • 자동 어닐링: σt2\sigma_t^2가 감소함에 따라 측정 기반에서 사전 기반으로 전환
  • 수치 안정성: 극단적인 SNR 스케일링을 회피합니다

미분 불가능 연산자 처리

JPEG 복원, 양자화 등의 미분 불가능 작업의 경우 대리 기울기를 사용합니다: x0yH(x0)22JH(x0)T(H(x0)y)\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2J_{H'}(x_0)^T(H(x_0) - y)

양자화의 경우 H(x0)=x0H'(x_0) = x_0을 채택하여 다음과 같이 단순화합니다: x0yH(x0)22(H(x0)y)\nabla_{x_0}\|y - H(x_0)\|^2 \approx 2(H(x_0) - y)

실험 설정

데이터셋

  • 이미지 복원: FFHQ 256×256 및 ImageNet 256×256, 각각 100개의 테스트 이미지 사용
  • 과학적 역문제: InverseBench 데이터셋 채택, 형광 현미경 이미지(선형 역산란), GRMHD 데이터(블랙홀 이미징), fastMRI 무릎 데이터(압축 감지 MRI) 포함

평가 지표

  • 이미지 복원: PSNR, SSIM, LPIPS
  • 과학적 역문제: 주로 PSNR 사용, 작업 특정 지표로 보조

비교 방법

DDNM, DDRM, ΠGDM, DPS, LGD, PnP-DM, FPS, MCG-diff, RedDiff, DAPS, DiffPIR, DCDP, DMPlug 등 12가지 방법 포함

구현 세부사항

  • 확산 단계: 일반적으로 200단계
  • 기울기 업데이트 단계: 20-200단계(작업에 따라 다름)
  • 학습률: 0.01-1.0(작업 관련)
  • 매개변수 k1k_1: 0-10, k2k_2: 0.01-30000

실험 결과

주요 결과

이미지 복원 작업

표 1에서 LMAPS는 60개 결과 중 49개에서 최고의 성능을 달성합니다:

  • 동작 제거: FFHQ에서 32.62 dB vs DAPS의 29.66 dB(+2.96 dB)
  • JPEG 복원: FFHQ에서 27.25 dB vs ΠGDM의 25.04 dB(+2.21 dB)
  • 양자화: FFHQ에서 29.51 dB vs ΠGDM의 25.82 dB(+3.69 dB)

과학적 역문제

표 2에서 LMAPS는 모든 작업에서 최고의 PSNR을 달성합니다:

  • 선형 역산란(NR=360): 38.07 dB vs RED-diff의 36.56 dB(+1.51 dB)
  • 선형 역산란(NR=180): 37.19 dB vs RED-diff의 35.41 dB(+1.78 dB)
  • 선형 역산란(NR=60): 30.75 dB vs RED-diff의 27.07 dB(+3.68 dB)

절제 실험

그림 4는 최적화 단계와 확산 단계의 트레이드오프를 보여줍니다:

  • 최고의 성능은 일반적으로 NFE=200-500에서 관찰됩니다
  • 각 확산 단계의 최적화 단계를 증가시키면 성능이 크게 향상됩니다
  • SITCOM(600 NFEs)과 비교하여 LMAPS는 더 적은 계산 리소스로 유사한 성능을 달성합니다

계산 효율성

표 3은 제거 작업에서 LMAPS의 샘플링 시간을 보여줍니다:

  • LMAPS(200단계 확산, 100단계 최적화): 61초/이미지, 30.88 dB
  • DAPS(200단계 확산, 100단계 최적화): 110초/이미지, 29.19 dB
  • SITCOM(600단계): 73초/이미지, 29.93 dB

관련 연구

확산 후방 샘플링

DPS 및 그 변형은 후방 분포 p(x0y)p(x_0|y)에서 직접 샘플링하여 역문제를 해결하며, TMPD, DDNM, ΠGDM 등의 방법을 포함합니다.

최적화 기반 방법

Resample, DiffPIR, DCDP, DMPlug 등의 방법은 교대 제거, 최적화 및 재샘플링을 통해 역문제를 해결하며, 우수한 성능을 보이지만 이론적 기초가 부족합니다.

MAP 추정 방법

최근 연구는 확산 사전 하에서의 MAP 추정에 관심을 기울이기 시작했지만, 주로 선형 역문제로 제한됩니다.

결론 및 토론

주요 결론

  1. 이론적 통일: LMAPS는 최적화 기반 확산 방법에 대한 통일된 확률 해석을 제공합니다
  2. 성능 향상: 여러 작업에서 현저한 PSNR 향상을 달성하며, 특히 도전적인 비선형 및 미분 불가능 작업에서 두드러집니다
  3. 계산 효율성: 기존 방법과 비교하여 더 나은 계산 효율성을 제공합니다

제한사항

  1. 수렴성: 국소 MAP 수열이 반드시 전역 MAP으로 수렴하지는 않습니다
  2. 다양성: DPS와 비교하여 LMAPS는 더 적은 출력 다양성을 생성할 수 있습니다
  3. 초매개변수 민감성: 서로 다른 작업에 대해 매개변수 k1k_1k2k_2를 조정해야 합니다

향후 방향

논문은 베이지안 추론에서 전역 MAP의 핵심 역할이 크게 무시되었음을 지적하며, 확산 사전 하에서 전역 MAP을 효율적으로 해결하는 것이 여전히 개방된 과제임을 나타냅니다. MAP은 단일 모드에 집중함으로써 출력 다양성을 줄일 수 있지만, 더 높은 확정성과 관측 데이터와의 더 나은 정렬을 제공합니다.

심층 평가

장점

  1. 이론적 기여 현저: 최적화 기반 확산 방법에 대한 명확한 확률 해석을 처음으로 제공합니다
  2. 실험 포괄적: 10개의 이미지 복원 작업 및 3개의 과학적 역문제를 포함하며 실험 설정이 완전합니다
  3. 성능 향상 명백: 여러 도전적인 작업에서 2dB 이상의 현저한 향상을 달성합니다
  4. 방법 실용적: 미분 불가능 연산자를 처리하기 위한 효과적인 전략을 제공합니다
  5. 작성 명확: 이론 분석 및 방법 설명이 모두 명확합니다

부족한 점

  1. 이론 분석 깊이: 확률 해석을 제공하지만 수렴성 및 이론적 보장에 대한 분석이 상대적으로 제한적입니다
  2. 초매개변수 복잡성: 각 작업에 대해 여러 초매개변수를 조정해야 하며, 방법의 일반화에 영향을 미칠 수 있습니다
  3. 계산 오버헤드: 일부 방법과 비교하여 더 효율적이지만 여전히 각 시간 단계에서 여러 기울기 업데이트가 필요합니다
  4. 평가 제한: 주로 재구성 품질에 초점을 맞추며 불확실성 정량화 평가가 부족합니다

영향력

  1. 학술적 가치: 역문제에서 확산 모델의 응용에 대한 새로운 이론적 관점을 제공합니다
  2. 실용적 가치: 이미지 복원 및 과학 계산 분야에서 직접적인 응용 가치를 갖습니다
  3. 영감: 확산 모델 MAP 추정에 관한 더 많은 연구에 영감을 줄 수 있습니다

적용 가능한 시나리오

  • 다양성이 아닌 고품질 재구성이 필요한 역문제
  • 미분 불가능 전진 연산자를 포함하는 작업(JPEG 복원, 양자화 등)
  • 과학 계산에서의 역문제 해결
  • 계산 효율성에 대한 특정 요구사항이 있는 실시간 응용

참고문헌

논문은 확산 모델, 역문제 해결, 베이지안 추론 등의 분야에서 중요한 작업을 인용하며, DPS, DAPS, TMPD 등 핵심 방법의 원본 논문을 포함하여 관련 연구에 대한 좋은 문헌 기초를 제공합니다.