2025-11-15T09:52:11.139771

Improved Sample Complexity For Diffusion Model Training Without Empirical Risk Minimizer Access

Gaur, Trivedi, Kunapuli et al.
Diffusion models have demonstrated state-of-the-art performance across vision, language, and scientific domains. Despite their empirical success, prior theoretical analyses of the sample complexity suffer from poor scaling with input data dimension or rely on unrealistic assumptions such as access to exact empirical risk minimizers. In this work, we provide a principled analysis of score estimation, establishing a sample complexity bound of $\mathcal{O}(ε^{-4})$. Our approach leverages a structured decomposition of the score estimation error into statistical, approximation, and optimization errors, enabling us to eliminate the exponential dependence on neural network parameters that arises in prior analyses. It is the first such result that achieves sample complexity bounds without assuming access to the empirical risk minimizer of score function estimation loss.
academic

Complejidad de Muestra Mejorada para Entrenamiento de Modelos de Difusión sin Acceso al Minimizador de Riesgo Empírico

Información Básica

  • ID del Artículo: 2505.18344
  • Título: Improved Sample Complexity For Diffusion Model Training Without Empirical Risk Minimizer Access
  • Autores: Mudit Gaur, Prashant Trivedi, Sasidhar Kunapuli, Amrit Singh Bedi, and Vaneet Aggarwal
  • Instituciones: Purdue University, University of Central Florida, UC Berkeley
  • Clasificación: cs.LG, cs.AI, stat.ML
  • Fecha de Publicación: arXiv:2505.18344v6 cs.LG 12 Nov 2025
  • Enlace del Artículo: https://arxiv.org/abs/2505.18344

Resumen

Los modelos de difusión han demostrado un rendimiento de última generación en los campos de visión, lenguaje y ciencia. A pesar del éxito empírico, los análisis teóricos previos sobre complejidad de muestra presentan dos problemas principales: primero, crecimiento exponencial con la dimensionalidad de los datos de entrada; segundo, dependencia de suposiciones poco realistas (como acceso a un minimizador de riesgo empírico exacto). Este artículo proporciona un análisis principista de la estimación de puntuación, estableciendo un límite de complejidad de muestra de O~(ϵ4)\tilde{O}(\epsilon^{-4}). El método descompone estructuradamente el error de estimación de puntuación en error estadístico, error de aproximación y error de optimización, eliminando la dependencia exponencial de los parámetros de la red neuronal en análisis previos. Este es el primer resultado que logra un límite de complejidad de muestra sin asumir acceso a un minimizador de riesgo empírico de la pérdida de estimación de puntuación.

Contexto de Investigación y Motivación

Definición del Problema

Los modelos de difusión muestrean desde distribuciones complejas aprendiendo a invertir el proceso de adición de ruido, siendo el núcleo la estimación de la función de puntuación (score function) logpt(x)\nabla \log p_t(x). Aunque los modelos de difusión funcionan excepcionalmente bien en la práctica, la comprensión teórica sigue siendo limitada, particularmente:

  1. Problema de Complejidad de Muestra: ¿Cuántas muestras se necesitan para entrenar un modelo de difusión de alta calidad?
  2. Maldición de Dimensionalidad: Los resultados teóricos existentes muestran dependencia exponencial de la dimensionalidad de datos dd (como O~(ϵd)\tilde{O}(\epsilon^{-d}))
  3. Suposiciones Poco Realistas: Todos los trabajos previos asumen acceso a un minimizador de riesgo empírico (ERM) de la pérdida de estimación de puntuación, lo cual es imposible en la práctica

Importancia de la Investigación

Comprender la complejidad de muestra es crucial para:

  • Garantías Teóricas: Asegurar eficiencia, capacidad de generalización y escalabilidad del modelo
  • Orientación Práctica: Generar muestras de alta calidad con datos mínimos en escenarios con recursos limitados
  • Cerrar la Brecha Teoría-Práctica: Llevar la teoría de modelos de difusión al nivel de campos como aprendizaje por refuerzo y optimización bilevel

Limitaciones de Métodos Existentes

Como se muestra en la Tabla 1, los trabajos existentes presentan los siguientes problemas:

LiteraturaComplejidad de MuestraSuposición ERM
Zhang et al. (2024)O~(ϵd)\tilde{O}(\epsilon^{-d})
Wibisono et al. (2024)O~(ϵd)\tilde{O}(\epsilon^{-d})
Gupta et al. (2024)O~(ϵ5)\tilde{O}(\epsilon^{-5})*
Este TrabajoO~(ϵ4)\tilde{O}(\epsilon^{-4})No

*Nota: Gupta et al. (2024) afirma O~(ϵ3)\tilde{O}(\epsilon^{-3}), pero no acumula correctamente los errores de discretización

Motivación de la Investigación

Este artículo busca responder la pregunta central:

¿Cuántas muestras se necesitan para que una red neuronal suficientemente expresiva estime la función de puntuación sin acceso a un minimizador de riesgo empírico, permitiendo generar muestras de alta calidad usando el algoritmo DDPM?

Contribuciones Principales

  1. Primer Límite de Complejidad de Muestra en Tiempo Finito sin Suposición ERM: Establece un límite de complejidad de muestra de O~(ϵ4)\tilde{O}(\epsilon^{-4}) sin necesidad de acceso a un minimizador de riesgo empírico, sin dependencia exponencial de la dimensionalidad o parámetros de la red neuronal
  2. Marco de Descomposición de Error Principista: Propone descomponer sistemáticamente el error de estimación de puntuación en tres componentes:
    • Error de Aproximación (Approximation Error): Limitaciones de capacidad expresiva de la clase de funciones de red neuronal
    • Error Estadístico (Statistical Error): Error causado por muestras finitas
    • Error de Optimización (Optimization Error): Error causado por número finito de pasos SGD
  3. Análisis Técnico Novedoso:
    • Utiliza normalidad condicional para manejar funciones de pérdida no acotadas en el error estadístico
    • Delimita el error de optimización mediante la condición de Polyak-Łojasiewicz (PL) y análisis recursivo
    • Proporciona garantías de convergencia para tasas de aprendizaje constantes y decrecientes
  4. Puente entre Teoría y Práctica: Conecta directamente la calidad de la función de puntuación aprendida con la distancia de variación total entre la distribución generada y la distribución objetivo

Explicación Detallada del Método

Definición de la Tarea

Proceso de Difusión Hacia Adelante: Utiliza el proceso de Ornstein-Uhlenbeck (OU): dxt=xtdt+2dBt,x0p0,xRddx_t = -x_t dt + \sqrt{2}dB_t, \quad x_0 \sim p_0, \quad x \in \mathbb{R}^d

La solución en forma cerrada es: xtetx0+1e2tϵ,ϵN(0,I)x_t \sim e^{-t}x_0 + \sqrt{1-e^{-2t}}\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)

Cuando tt \to \infty, el proceso converge a la distribución estacionaria N(0,I)\mathcal{N}(0, I).

Proceso de Difusión Inversa: Obtenido mediante teoría de inversión temporal: dxTt=(xTt+2logpTt(xTt))dt+2dBtdx_{T-t} = (x_{T-t} + 2\nabla \log p_{T-t}(x_{T-t}))dt + \sqrt{2}dB_t

Discretización: Se discretiza en puntos de tiempo 0<t0<t1<<tK=T0 < t_0 < t_1 < \cdots < t_K = T, implementando el algoritmo DDPM usando la función de puntuación estimada s^tk\hat{s}_{t_k}.

Objetivo: Cuantificar la distancia de variación total (TV) entre el modelo generativo aprendido p^t0\hat{p}_{t_0} y la distribución de datos verdadera pp: TV(pt0,p^t0)O(ϵ)\text{TV}(p_{t_0}, \hat{p}_{t_0}) \leq O(\epsilon)

Suposiciones Principales

Suposición 1 (Distribución de Datos con Segundo Momento Acotado): La distribución de datos p0p_0 es absolutamente continua, con soporte en un conjunto compacto ΓRd\Gamma \subset \mathbb{R}^d, y E[x02]C1\mathbb{E}[\|x_0\|^2] \leq C_1.

Suposición 2 (Condición de Polyak-Łojasiewicz): La función de pérdida Lk(θ)L_k(\theta) satisface la condición PL: 12Lk(θ)2μt(Lk(θ)Lk(θ))\frac{1}{2}\|\nabla L_k(\theta)\|^2 \geq \mu_t(L_k(\theta) - L_k(\theta^*))

Esto es significativamente más débil que convexidad fuerte y es común en redes neuronales sobreparametrizadas.

Suposición 3 (Error de Aproximación): Existe un parámetro de red neuronal θΘ\theta \in \Theta tal que: Expt[sθ(x,t)logpt(x)2]ϵapprox\mathbb{E}_{x \sim p_t}[\|s_\theta(x,t) - \nabla \log p_t(x)\|^2] \leq \epsilon_{\text{approx}}

Suposición 4 (Suavidad y Varianza de Gradiente Acotada):

  • Función de pérdida κ\kappa-suave: Lk(θ)Lk(θ)κθθ\|\nabla L_k(\theta) - \nabla L_k(\theta')\| \leq \kappa\|\theta - \theta'\|
  • Varianza de estimación de gradiente acotada: EL^k(θ)Lk(θ)2σ2\mathbb{E}\|\nabla \hat{L}_k(\theta) - \nabla L_k(\theta)\|^2 \leq \sigma^2

Marco de Descomposición de Error

Para el paso temporal kk, el error de estimación de puntuación se descompone como: Exptk[s^tk(x,tk)logptk(x)2]4Ekapprox+4Ekstat+4Ekopt\mathbb{E}_{x \sim p_{t_k}}[\|\hat{s}_{t_k}(x,t_k) - \nabla \log p_{t_k}(x)\|^2] \leq 4E_k^{\text{approx}} + 4E_k^{\text{stat}} + 4E_k^{\text{opt}}

Donde:

  • θka=argminθΘExptk[sθ(x,tk)logpt(x,tk)2]\theta_k^a = \arg\min_{\theta \in \Theta} \mathbb{E}_{x \sim p_{t_k}}[\|s_\theta(x,t_k) - \nabla \log p_t(x,t_k)\|^2] (óptimo teórico)
  • θkb=argminθΘ1ni=1nsθ(xi,tk)logpt(xi,tk)2\theta_k^b = \arg\min_{\theta \in \Theta} \frac{1}{n}\sum_{i=1}^n \|s_\theta(x_i,t_k) - \nabla \log p_t(x_i,t_k)\|^2 (óptimo empírico)
  • θ^k\hat{\theta}_k = parámetros después de nn pasos SGD (obtenido en la práctica)

Delimitación de Errores

Lema 1 (Error de Aproximación): Obtenido directamente de la Suposición 3: EkapproxϵapproxE_k^{\text{approx}} \leq \epsilon_{\text{approx}}

Lema 2 (Error Estadístico): Utilizando normalidad condicional y segundo momento acotado, con probabilidad al menos 1δ1-\delta: EkstatO(WDdlog(2/δ)nk)E_k^{\text{stat}} \leq O\left(W^D \cdot d \cdot \sqrt{\frac{\log(2/\delta)}{n_k}}\right)

Técnicas Clave:

  1. Definición de función de puntuación truncada para manejar no acotación
  2. Uso de complejidad de Rademacher para delimitar error de generalización
  3. Control de masa de probabilidad fuera de la región truncada

Lema 3 (Error de Optimización): Usando tasa de aprendizaje decreciente ηi=αi+γ\eta_i = \frac{\alpha}{i+\gamma} (donde αμ>1\alpha \mu > 1, γ>ακ\gamma > \alpha \kappa), con probabilidad al menos 1δ1-\delta: EkoptO(WDdlog(2/δ)nk)E_k^{\text{opt}} \leq O\left(W^D \cdot d \cdot \sqrt{\frac{\log(2/\delta)}{n_k}}\right)

Técnicas Clave:

  1. Explotación de la propiedad de crecimiento cuadrático de la condición PL
  2. Análisis recursivo de cada paso SGD
  3. Manejo de ruido de cola pesada bajo recorte de gradientes

Resultados Teóricos Principales

Teorema 1 (Límite de Distancia de Variación Total): Bajo las Suposiciones 1-4, si el número de muestras satisface: nk=Ω(W2Dd2log(4Kδ)ϵ4σk4)n_k = \Omega\left(W^{2D} \cdot d^2 \cdot \log\left(\frac{4K}{\delta}\right) \cdot \epsilon^{-4} \sigma_k^{-4}\right)

Entonces con probabilidad al menos 1δ1-\delta: TV(pt0,p^t0)O(eT)+O(1K)+O(ϵ)+ϵapprox\text{TV}(p_{t_0}, \hat{p}_{t_0}) \leq O(e^{-T}) + O\left(\frac{1}{\sqrt{K}}\right) + O(\epsilon) + \epsilon_{\text{approx}}

Estableciendo T=Ω(log(1/ϵ))T = \Omega(\log(1/\epsilon)) y K=Ω(ϵ2)K = \Omega(\epsilon^{-2}), se obtiene: TV(pt0,p^t0)O(ϵ)+ϵapprox\text{TV}(p_{t_0}, \hat{p}_{t_0}) \leq O(\epsilon) + \epsilon_{\text{approx}}

Complejidad Total de Muestra: ntotal=k=0Knk=O~(ϵ4)n_{\text{total}} = \sum_{k=0}^K n_k = \tilde{O}(\epsilon^{-4})

Esquema de Prueba

  1. Descomposición de Distancia TV: TV(pt0,p^t0)TV(pt0,pt0dis)+TV(pt0dis,p~t0)+TV(p~t0,p^t0)\text{TV}(p_{t_0}, \hat{p}_{t_0}) \leq \text{TV}(p_{t_0}, p_{t_0}^{\text{dis}}) + \text{TV}(p_{t_0}^{\text{dis}}, \tilde{p}_{t_0}) + \text{TV}(\tilde{p}_{t_0}, \hat{p}_{t_0})
  2. Acumulación de Error de Puntuación: Utilizando el teorema de Girsanov: TV(pt0dis,p~t0)12k=0KE[s^tklogptk2](tk+1tk)\text{TV}(p_{t_0}^{\text{dis}}, \tilde{p}_{t_0}) \leq \frac{1}{2}\sqrt{\sum_{k=0}^K \mathbb{E}[\|\hat{s}_{t_k} - \nabla \log p_{t_k}\|^2](t_{k+1}-t_k)}
  3. Suma de Errores: Mediante los tres límites de error, estableciendo número de muestras apropiado tal que: k=0KA(k)(tk+1tk)ϵ2T\sum_{k=0}^K A(k)(t_{k+1}-t_k) \leq \epsilon^2 T
  4. Selección de Parámetros: Equilibrio entre error de discretización, error de inicialización y error de estimación de puntuación

Configuración Experimental

Nota: Este es un artículo puramente teórico sin sección experimental. Las contribuciones principales radican en el análisis teórico y el establecimiento de límites de complejidad de muestra.

Trabajo Relacionado

Fundamentos de Modelos de Difusión

  • DDPM (Ho et al., 2020): Trabajo fundamental en modelos de probabilidad de difusión con denoising
  • Score-based SDE (Song et al., 2021): Marco de ecuaciones diferenciales estocásticas basado en puntuación
  • Latent Diffusion (Rombach et al., 2022): Generación eficiente en espacio latente

Investigación de Complejidad Iterativa

Trabajos que asumen estimación de puntuación acotada:

  • Li et al. (2024b), Benton et al. (2024): Garantías de complejidad iterativa para DDPM
  • Li & Yan (2024), Huang et al. (2024): Tasas de convergencia mejoradas bajo suposiciones de datos de baja dimensión
  • Liang et al. (2025a,b): Cronogramas de denoising acelerados

Investigación de Complejidad de Muestra

  • Dependencia Exponencial de Dimensión: Chen et al. (2023), Zhang et al. (2024), Wibisono et al. (2024), Oko et al. (2023) con límites de O~(ϵO(d))\tilde{O}(\epsilon^{-O(d)})
  • Límites Mejorados pero Requieren ERM: Gupta et al. (2024) realmente O~(ϵ5)\tilde{O}(\epsilon^{-5}) (requiere límite conjunto)

Ventajas de Este Trabajo

  1. Sin Suposición ERM: Primer límite de complejidad de muestra en configuración de optimización práctica
  2. Límite Mejorado: Mejora de O~(ϵ5)\tilde{O}(\epsilon^{-5}) a O~(ϵ4)\tilde{O}(\epsilon^{-4})
  3. Suposiciones Más Débiles: Solo requiere segundo momento acotado, no requiere soporte acotado o sub-Gaussiano
  4. Análisis Completo: Manejo explícito de tres clases de errores: estadístico, aproximación y optimización

Conclusiones y Discusión

Conclusiones Principales

  1. Complejidad de Muestra: Alcanzar precisión ϵ\epsilon sin acceso ERM requiere O~(ϵ4)\tilde{O}(\epsilon^{-4}) muestras
  2. Fuentes de Error: Identificación y delimitación sistemática de la contribución de tres clases de errores
  3. Progreso Teórico: Primer límite de complejidad de muestra para modelos de difusión bajo suposiciones de optimización realistas

Limitaciones

  1. Constante de Error de Aproximación: Trata ϵapprox\epsilon_{\text{approx}} como constante, sin analizar su relación con el tamaño de red (en la práctica puede requerir redes exponencialmente grandes para lograr error de aproximación pequeño)
  2. Condición PL: Aunque más débil que convexidad fuerte, puede no cumplirse en configuraciones no convexas generales (aunque es común en redes sobreparametrizadas)
  3. Tiempo de Parada Temprana: El límite es para TV(pt0,p^t0)\text{TV}(p_{t_0}, \hat{p}_{t_0}) en lugar de TV(p0,p^t0)\text{TV}(p_0, \hat{p}_{t_0}), siendo este último requiere suposiciones sub-Gaussiano adicionales (Teorema 2)
  4. Generación Incondicional: El análisis es solo para distribuciones incondicionales, la extensión a configuraciones condicionales es una dirección futura
  5. Verificación Experimental: Como trabajo puramente teórico, carece de verificación experimental de predicciones teóricas

Direcciones Futuras

  1. Generación Condicional: Extender garantías a modelos de difusión condicional (como guidance sin clasificador)
  2. Suposiciones Más Débiles: Explorar límites bajo distribuciones de datos y condiciones de optimización más generales
  3. Análisis de Tightness: Investigar si el límite ϵ4\epsilon^{-4} es ajustado, posibles límites inferiores
  4. Algoritmos Prácticos: Diseñar algoritmos de entrenamiento prácticos que aprovechen insights teóricos
  5. Otras Arquitecturas: Analizar complejidad de muestra para arquitecturas modernas como Transformers

Evaluación Profunda

Fortalezas

  1. Avance Teórico Importante:
    • Primer trabajo en eliminar la suposición ERM, una limitación crítica en la práctica
    • Mejora del límite óptimo conocido (de ϵ5\epsilon^{-5} a ϵ4\epsilon^{-4})
    • Sin dependencia exponencial de dimensión, aplicable a configuraciones de alta dimensión
  2. Innovación Técnica:
    • Análisis de Error Estadístico: Uso ingenioso de normalidad condicional y técnicas de truncamiento para manejar pérdida no acotada
    • Análisis de Error de Optimización: Primer análisis explícito del impacto de iteraciones SGD finitas, usando condición PL y técnicas recursivas
    • Marco de Descomposición de Error: Descomposición clara en tres términos haciendo la contribución de cada factor transparente
  3. Rigor Teórico:
    • Prueba completa y detallada (apéndice supera 30 páginas)
    • Suposiciones explícitas y relativamente moderadas (comparado con trabajo previo)
    • Dependencia de constantes clara (aunque potencialmente grande)
  4. Calidad de Escritura:
    • Estructura clara, motivación suficiente
    • Explicación clara de contribuciones técnicas
    • Comparación exhaustiva con trabajo relacionado (especialmente análisis de Gupta et al. en Apéndice A)

Insuficiencias

  1. Brecha Teoría-Práctica:
    • Límite de complejidad de muestra, aunque polinomial, puede tener constantes ocultas grandes (W2Dd2W^{2D} \cdot d^2)
    • En la práctica, tamaños de red neuronal son mucho menores que lo requerido teóricamente
    • Falta verificación experimental de validez de predicciones teóricas
  2. Practicidad de Suposiciones:
    • Condición PL: Aunque común en configuraciones sobreparametrizadas, difícil de verificar
    • Constante de Error de Aproximación: Asumir como constante evita el trade-off entre capacidad de red y calidad de aproximación
    • Suavidad y Varianza Acotada: Puede no satisfacerse estrictamente en entrenamiento real
  3. Limitaciones Técnicas:
    • Análisis depende del proceso OU, otros cronogramas de ruido (como VP/VE SDE) no cubiertos
    • Selección de tiempo de parada temprana t0t_0 y su impacto no suficientemente discutidos
    • Límite para pt0p_{t_0} en lugar de p0p_0 requiere suposiciones adicionales (Teorema 2)
  4. Equidad de Comparación:
    • Comparación con Gupta et al. (2024) depende de reinterpretación de sus resultados (Apéndice A)
    • Sin comparación con otros métodos sin suposición ERM (como Block et al. 2020)
  5. Contenido Faltante:
    • Sin análisis de límites inferiores, optimalidad de ϵ4\epsilon^{-4} desconocida
    • Sin detalles de implementación de algoritmo o pseudocódigo (solo descripción de alto nivel)
    • Sin experimentos numéricos verificando predicciones teóricas

Impacto

  1. Contribución Teórica:
    • Proporciona punto de referencia importante para teoría de modelos de difusión
    • Marco de descomposición de error puede inspirar análisis de otros modelos generativos
    • Cierra la brecha entre teoría y práctica
  2. Valor Práctico:
    • Guía a practicantes en comprensión de requisitos de muestra
    • Proporciona base teórica para diseño de algoritmos (como selección de tasa de aprendizaje)
    • Identifica cuellos de botella clave (error de optimización)
  3. Reproducibilidad:
    • Como trabajo teórico, prueba detallada y verificable
    • Suposiciones explícitas, aplicable cuando se satisfacen condiciones
    • Pero falta código o experimentos, aplicación práctica requiere trabajo adicional

Escenarios Aplicables

  1. Investigación Teórica: Proporciona base teórica para modelos de difusión, coincidencia de puntuación, modelos generativos
  2. Diseño de Algoritmos: Guía estrategias de entrenamiento (tamaño de muestra, tasa de aprendizaje, parada temprana)
  3. Planificación de Recursos: Estima recursos computacionales y de datos necesarios para alcanzar calidad objetivo
  4. Verificación de Suposiciones: Aplicable en configuraciones específicas satisfaciendo condiciones PL

No Aplicable A:

  • Aplicaciones requiriendo constantes ajustadas
  • Optimización no convexa general sin condición PL
  • Tareas de generación condicional (actualmente no cubiertas)

Análisis Profundo de Puntos Técnicos Destacados

Manejo Innovador de Error Estadístico

La teoría de aprendizaje estadístico tradicional (como Shalev-Shwartz & Ben-David, 2014) requiere funciones de pérdida acotadas para aplicar complejidad de Rademacher. Pero la función de puntuación logpt(x)=xetx0σt2\nabla \log p_t(x) = \frac{x - e^{-t}x_0}{\sigma_t^2} es no acotada cuando xx es no acotado.

Solución:

  1. Definir función de puntuación truncada:
undefined