2025-11-15T09:52:11.139771

Improved Sample Complexity For Diffusion Model Training Without Empirical Risk Minimizer Access

Gaur, Trivedi, Kunapuli et al.

Diffusion models have demonstrated state-of-the-art performance across vision, language, and scientific domains. Despite their empirical success, prior theoretical analyses of the sample complexity suffer from poor scaling with input data dimension or rely on unrealistic assumptions such as access to exact empirical risk minimizers. In this work, we provide a principled analysis of score estimation, establishing a sample complexity bound of $\mathcal{O}(Îµ^{-4})$. Our approach leverages a structured decomposition of the score estimation error into statistical, approximation, and optimization errors, enabling us to eliminate the exponential dependence on neural network parameters that arises in prior analyses. It is the first such result that achieves sample complexity bounds without assuming access to the empirical risk minimizer of score function estimation loss.

academic

Complejidad de Muestra Mejorada para Entrenamiento de Modelos de Difusión sin Acceso al Minimizador de Riesgo Empírico

Información Básica

ID del Artículo: 2505.18344
Título: Improved Sample Complexity For Diffusion Model Training Without Empirical Risk Minimizer Access
Autores: Mudit Gaur, Prashant Trivedi, Sasidhar Kunapuli, Amrit Singh Bedi, and Vaneet Aggarwal
Instituciones: Purdue University, University of Central Florida, UC Berkeley
Clasificación: cs.LG, cs.AI, stat.ML
Fecha de Publicación: arXiv:2505.18344v6 cs.LG 12 Nov 2025
Enlace del Artículo: https://arxiv.org/abs/2505.18344

Resumen

Los modelos de difusión han demostrado un rendimiento de última generación en los campos de visión, lenguaje y ciencia. A pesar del éxito empírico, los análisis teóricos previos sobre complejidad de muestra presentan dos problemas principales: primero, crecimiento exponencial con la dimensionalidad de los datos de entrada; segundo, dependencia de suposiciones poco realistas (como acceso a un minimizador de riesgo empírico exacto). Este artículo proporciona un análisis principista de la estimación de puntuación, estableciendo un límite de complejidad de muestra de $\tilde{O}(\epsilon^{-4})$ . El método descompone estructuradamente el error de estimación de puntuación en error estadístico, error de aproximación y error de optimización, eliminando la dependencia exponencial de los parámetros de la red neuronal en análisis previos. Este es el primer resultado que logra un límite de complejidad de muestra sin asumir acceso a un minimizador de riesgo empírico de la pérdida de estimación de puntuación.

Contexto de Investigación y Motivación

Definición del Problema

Los modelos de difusión muestrean desde distribuciones complejas aprendiendo a invertir el proceso de adición de ruido, siendo el núcleo la estimación de la función de puntuación (score function) $\nabla \log p_t(x)$ . Aunque los modelos de difusión funcionan excepcionalmente bien en la práctica, la comprensión teórica sigue siendo limitada, particularmente:

Problema de Complejidad de Muestra: ¿Cuántas muestras se necesitan para entrenar un modelo de difusión de alta calidad?
Maldición de Dimensionalidad: Los resultados teóricos existentes muestran dependencia exponencial de la dimensionalidad de datos $d$ (como $\tilde{O}(\epsilon^{-d})$ )
Suposiciones Poco Realistas: Todos los trabajos previos asumen acceso a un minimizador de riesgo empírico (ERM) de la pérdida de estimación de puntuación, lo cual es imposible en la práctica

Importancia de la Investigación

Comprender la complejidad de muestra es crucial para:

Garantías Teóricas: Asegurar eficiencia, capacidad de generalización y escalabilidad del modelo
Orientación Práctica: Generar muestras de alta calidad con datos mínimos en escenarios con recursos limitados
Cerrar la Brecha Teoría-Práctica: Llevar la teoría de modelos de difusión al nivel de campos como aprendizaje por refuerzo y optimización bilevel

Limitaciones de Métodos Existentes

Como se muestra en la Tabla 1, los trabajos existentes presentan los siguientes problemas:

Literatura	Complejidad de Muestra	Suposición ERM
Zhang et al. (2024)	$\tilde{O}(\epsilon^{-d})$	Sí
Wibisono et al. (2024)	$\tilde{O}(\epsilon^{-d})$	Sí
Gupta et al. (2024)	$\tilde{O}(\epsilon^{-5})$ *	Sí
Este Trabajo	$\tilde{O}(\epsilon^{-4})$	No

*Nota: Gupta et al. (2024) afirma $\tilde{O}(\epsilon^{-3})$ , pero no acumula correctamente los errores de discretización

Motivación de la Investigación

Este artículo busca responder la pregunta central:

¿Cuántas muestras se necesitan para que una red neuronal suficientemente expresiva estime la función de puntuación sin acceso a un minimizador de riesgo empírico, permitiendo generar muestras de alta calidad usando el algoritmo DDPM?

Contribuciones Principales

Primer Límite de Complejidad de Muestra en Tiempo Finito sin Suposición ERM: Establece un límite de complejidad de muestra de $\tilde{O}(\epsilon^{-4})$ sin necesidad de acceso a un minimizador de riesgo empírico, sin dependencia exponencial de la dimensionalidad o parámetros de la red neuronal
Marco de Descomposición de Error Principista: Propone descomponer sistemáticamente el error de estimación de puntuación en tres componentes:
- Error de Aproximación (Approximation Error): Limitaciones de capacidad expresiva de la clase de funciones de red neuronal
- Error Estadístico (Statistical Error): Error causado por muestras finitas
- Error de Optimización (Optimization Error): Error causado por número finito de pasos SGD
Análisis Técnico Novedoso:
- Utiliza normalidad condicional para manejar funciones de pérdida no acotadas en el error estadístico
- Delimita el error de optimización mediante la condición de Polyak-Łojasiewicz (PL) y análisis recursivo
- Proporciona garantías de convergencia para tasas de aprendizaje constantes y decrecientes
Puente entre Teoría y Práctica: Conecta directamente la calidad de la función de puntuación aprendida con la distancia de variación total entre la distribución generada y la distribución objetivo

Explicación Detallada del Método

Definición de la Tarea

Proceso de Difusión Hacia Adelante: Utiliza el proceso de Ornstein-Uhlenbeck (OU): $dx_t = -x_t dt + \sqrt{2}dB_t, \quad x_0 \sim p_0, \quad x \in \mathbb{R}^d$

La solución en forma cerrada es: $x_t \sim e^{-t}x_0 + \sqrt{1-e^{-2t}}\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)$

Cuando $t \to \infty$ , el proceso converge a la distribución estacionaria $\mathcal{N}(0, I)$ .

Proceso de Difusión Inversa: Obtenido mediante teoría de inversión temporal: $dx_{T-t} = (x_{T-t} + 2\nabla \log p_{T-t}(x_{T-t}))dt + \sqrt{2}dB_t$

Discretización: Se discretiza en puntos de tiempo $0 < t_0 < t_1 < \cdots < t_K = T$ , implementando el algoritmo DDPM usando la función de puntuación estimada $\hat{s}_{t_k}$ .

Objetivo: Cuantificar la distancia de variación total (TV) entre el modelo generativo aprendido $\hat{p}_{t_0}$ y la distribución de datos verdadera $p$ : $\text{TV}(p_{t_0}, \hat{p}_{t_0}) \leq O(\epsilon)$

Suposiciones Principales

Suposición 1 (Distribución de Datos con Segundo Momento Acotado): La distribución de datos $p_0$ es absolutamente continua, con soporte en un conjunto compacto $\Gamma \subset \mathbb{R}^d$ , y $\mathbb{E}[\|x_0\|^2] \leq C_1$ .

Suposición 2 (Condición de Polyak-Łojasiewicz): La función de pérdida $L_k(\theta)$ satisface la condición PL: $\frac{1}{2}\|\nabla L_k(\theta)\|^2 \geq \mu_t(L_k(\theta) - L_k(\theta^*))$

Esto es significativamente más débil que convexidad fuerte y es común en redes neuronales sobreparametrizadas.

Suposición 3 (Error de Aproximación): Existe un parámetro de red neuronal $\theta \in \Theta$ tal que: $\mathbb{E}_{x \sim p_t}[\|s_\theta(x,t) - \nabla \log p_t(x)\|^2] \leq \epsilon_{\text{approx}}$

Suposición 4 (Suavidad y Varianza de Gradiente Acotada):

Función de pérdida $\kappa$ -suave: $\|\nabla L_k(\theta) - \nabla L_k(\theta')\| \leq \kappa\|\theta - \theta'\|$
Varianza de estimación de gradiente acotada: $\mathbb{E}\|\nabla \hat{L}_k(\theta) - \nabla L_k(\theta)\|^2 \leq \sigma^2$

Marco de Descomposición de Error

Para el paso temporal $k$ , el error de estimación de puntuación se descompone como: $\mathbb{E}_{x \sim p_{t_k}}[\|\hat{s}_{t_k}(x,t_k) - \nabla \log p_{t_k}(x)\|^2] \leq 4E_k^{\text{approx}} + 4E_k^{\text{stat}} + 4E_k^{\text{opt}}$

Donde:

$\theta_k^a = \arg\min_{\theta \in \Theta} \mathbb{E}_{x \sim p_{t_k}}[\|s_\theta(x,t_k) - \nabla \log p_t(x,t_k)\|^2]$ (óptimo teórico)
$\theta_k^b = \arg\min_{\theta \in \Theta} \frac{1}{n}\sum_{i=1}^n \|s_\theta(x_i,t_k) - \nabla \log p_t(x_i,t_k)\|^2$ (óptimo empírico)
$\hat{\theta}_k$ = parámetros después de $n$ pasos SGD (obtenido en la práctica)

Delimitación de Errores

Lema 1 (Error de Aproximación): Obtenido directamente de la Suposición 3: $E_k^{\text{approx}} \leq \epsilon_{\text{approx}}$

Lema 2 (Error Estadístico): Utilizando normalidad condicional y segundo momento acotado, con probabilidad al menos $1-\delta$ : $E_k^{\text{stat}} \leq O\left(W^D \cdot d \cdot \sqrt{\frac{\log(2/\delta)}{n_k}}\right)$

Técnicas Clave:

Definición de función de puntuación truncada para manejar no acotación
Uso de complejidad de Rademacher para delimitar error de generalización
Control de masa de probabilidad fuera de la región truncada

Lema 3 (Error de Optimización): Usando tasa de aprendizaje decreciente $\eta_i = \frac{\alpha}{i+\gamma}$ (donde $\alpha \mu > 1$ , $\gamma > \alpha \kappa$ ), con probabilidad al menos $1-\delta$ : $E_k^{\text{opt}} \leq O\left(W^D \cdot d \cdot \sqrt{\frac{\log(2/\delta)}{n_k}}\right)$

Técnicas Clave:

Explotación de la propiedad de crecimiento cuadrático de la condición PL
Análisis recursivo de cada paso SGD
Manejo de ruido de cola pesada bajo recorte de gradientes

Resultados Teóricos Principales

Teorema 1 (Límite de Distancia de Variación Total): Bajo las Suposiciones 1-4, si el número de muestras satisface: $n_k = \Omega\left(W^{2D} \cdot d^2 \cdot \log\left(\frac{4K}{\delta}\right) \cdot \epsilon^{-4} \sigma_k^{-4}\right)$

Entonces con probabilidad al menos $1-\delta$ : $\text{TV}(p_{t_0}, \hat{p}_{t_0}) \leq O(e^{-T}) + O\left(\frac{1}{\sqrt{K}}\right) + O(\epsilon) + \epsilon_{\text{approx}}$

Estableciendo $T = \Omega(\log(1/\epsilon))$ y $K = \Omega(\epsilon^{-2})$ , se obtiene: $\text{TV}(p_{t_0}, \hat{p}_{t_0}) \leq O(\epsilon) + \epsilon_{\text{approx}}$

Complejidad Total de Muestra: $n_{\text{total}} = \sum_{k=0}^K n_k = \tilde{O}(\epsilon^{-4})$

Esquema de Prueba

Descomposición de Distancia TV: $\text{TV}(p_{t_0}, \hat{p}_{t_0}) \leq \text{TV}(p_{t_0}, p_{t_0}^{\text{dis}}) + \text{TV}(p_{t_0}^{\text{dis}}, \tilde{p}_{t_0}) + \text{TV}(\tilde{p}_{t_0}, \hat{p}_{t_0})$
Acumulación de Error de Puntuación: Utilizando el teorema de Girsanov: $\text{TV}(p_{t_0}^{\text{dis}}, \tilde{p}_{t_0}) \leq \frac{1}{2}\sqrt{\sum_{k=0}^K \mathbb{E}[\|\hat{s}_{t_k} - \nabla \log p_{t_k}\|^2](t_{k+1}-t_k)}$
Suma de Errores: Mediante los tres límites de error, estableciendo número de muestras apropiado tal que: $\sum_{k=0}^K A(k)(t_{k+1}-t_k) \leq \epsilon^2 T$
Selección de Parámetros: Equilibrio entre error de discretización, error de inicialización y error de estimación de puntuación

Configuración Experimental

Nota: Este es un artículo puramente teórico sin sección experimental. Las contribuciones principales radican en el análisis teórico y el establecimiento de límites de complejidad de muestra.

Trabajo Relacionado

Fundamentos de Modelos de Difusión

DDPM (Ho et al., 2020): Trabajo fundamental en modelos de probabilidad de difusión con denoising
Score-based SDE (Song et al., 2021): Marco de ecuaciones diferenciales estocásticas basado en puntuación
Latent Diffusion (Rombach et al., 2022): Generación eficiente en espacio latente

Investigación de Complejidad Iterativa

Trabajos que asumen estimación de puntuación acotada:

Li et al. (2024b), Benton et al. (2024): Garantías de complejidad iterativa para DDPM
Li & Yan (2024), Huang et al. (2024): Tasas de convergencia mejoradas bajo suposiciones de datos de baja dimensión
Liang et al. (2025a,b): Cronogramas de denoising acelerados

Investigación de Complejidad de Muestra

Dependencia Exponencial de Dimensión: Chen et al. (2023), Zhang et al. (2024), Wibisono et al. (2024), Oko et al. (2023) con límites de $\tilde{O}(\epsilon^{-O(d)})$
Límites Mejorados pero Requieren ERM: Gupta et al. (2024) realmente $\tilde{O}(\epsilon^{-5})$ (requiere límite conjunto)

Ventajas de Este Trabajo

Sin Suposición ERM: Primer límite de complejidad de muestra en configuración de optimización práctica
Límite Mejorado: Mejora de $\tilde{O}(\epsilon^{-5})$ a $\tilde{O}(\epsilon^{-4})$
Suposiciones Más Débiles: Solo requiere segundo momento acotado, no requiere soporte acotado o sub-Gaussiano
Análisis Completo: Manejo explícito de tres clases de errores: estadístico, aproximación y optimización

Conclusiones y Discusión

Conclusiones Principales

Complejidad de Muestra: Alcanzar precisión $\epsilon$ sin acceso ERM requiere $\tilde{O}(\epsilon^{-4})$ muestras
Fuentes de Error: Identificación y delimitación sistemática de la contribución de tres clases de errores
Progreso Teórico: Primer límite de complejidad de muestra para modelos de difusión bajo suposiciones de optimización realistas

Limitaciones

Constante de Error de Aproximación: Trata $\epsilon_{\text{approx}}$ como constante, sin analizar su relación con el tamaño de red (en la práctica puede requerir redes exponencialmente grandes para lograr error de aproximación pequeño)
Condición PL: Aunque más débil que convexidad fuerte, puede no cumplirse en configuraciones no convexas generales (aunque es común en redes sobreparametrizadas)
Tiempo de Parada Temprana: El límite es para $\text{TV}(p_{t_0}, \hat{p}_{t_0})$ en lugar de $\text{TV}(p_0, \hat{p}_{t_0})$ , siendo este último requiere suposiciones sub-Gaussiano adicionales (Teorema 2)
Generación Incondicional: El análisis es solo para distribuciones incondicionales, la extensión a configuraciones condicionales es una dirección futura
Verificación Experimental: Como trabajo puramente teórico, carece de verificación experimental de predicciones teóricas

Direcciones Futuras

Generación Condicional: Extender garantías a modelos de difusión condicional (como guidance sin clasificador)
Suposiciones Más Débiles: Explorar límites bajo distribuciones de datos y condiciones de optimización más generales
Análisis de Tightness: Investigar si el límite $\epsilon^{-4}$ es ajustado, posibles límites inferiores
Algoritmos Prácticos: Diseñar algoritmos de entrenamiento prácticos que aprovechen insights teóricos
Otras Arquitecturas: Analizar complejidad de muestra para arquitecturas modernas como Transformers

Evaluación Profunda

Fortalezas

Avance Teórico Importante:
- Primer trabajo en eliminar la suposición ERM, una limitación crítica en la práctica
- Mejora del límite óptimo conocido (de $\epsilon^{-5}$ a $\epsilon^{-4}$ )
- Sin dependencia exponencial de dimensión, aplicable a configuraciones de alta dimensión
Innovación Técnica:
- Análisis de Error Estadístico: Uso ingenioso de normalidad condicional y técnicas de truncamiento para manejar pérdida no acotada
- Análisis de Error de Optimización: Primer análisis explícito del impacto de iteraciones SGD finitas, usando condición PL y técnicas recursivas
- Marco de Descomposición de Error: Descomposición clara en tres términos haciendo la contribución de cada factor transparente
Rigor Teórico:
- Prueba completa y detallada (apéndice supera 30 páginas)
- Suposiciones explícitas y relativamente moderadas (comparado con trabajo previo)
- Dependencia de constantes clara (aunque potencialmente grande)
Calidad de Escritura:
- Estructura clara, motivación suficiente
- Explicación clara de contribuciones técnicas
- Comparación exhaustiva con trabajo relacionado (especialmente análisis de Gupta et al. en Apéndice A)

Insuficiencias

Brecha Teoría-Práctica:
- Límite de complejidad de muestra, aunque polinomial, puede tener constantes ocultas grandes ( $W^{2D} \cdot d^2$ )
- En la práctica, tamaños de red neuronal son mucho menores que lo requerido teóricamente
- Falta verificación experimental de validez de predicciones teóricas
Practicidad de Suposiciones:
- Condición PL: Aunque común en configuraciones sobreparametrizadas, difícil de verificar
- Constante de Error de Aproximación: Asumir como constante evita el trade-off entre capacidad de red y calidad de aproximación
- Suavidad y Varianza Acotada: Puede no satisfacerse estrictamente en entrenamiento real
Limitaciones Técnicas:
- Análisis depende del proceso OU, otros cronogramas de ruido (como VP/VE SDE) no cubiertos
- Selección de tiempo de parada temprana $t_0$ y su impacto no suficientemente discutidos
- Límite para $p_{t_0}$ en lugar de $p_0$ requiere suposiciones adicionales (Teorema 2)
Equidad de Comparación:
- Comparación con Gupta et al. (2024) depende de reinterpretación de sus resultados (Apéndice A)
- Sin comparación con otros métodos sin suposición ERM (como Block et al. 2020)
Contenido Faltante:
- Sin análisis de límites inferiores, optimalidad de $\epsilon^{-4}$ desconocida
- Sin detalles de implementación de algoritmo o pseudocódigo (solo descripción de alto nivel)
- Sin experimentos numéricos verificando predicciones teóricas

Impacto

Contribución Teórica:
- Proporciona punto de referencia importante para teoría de modelos de difusión
- Marco de descomposición de error puede inspirar análisis de otros modelos generativos
- Cierra la brecha entre teoría y práctica
Valor Práctico:
- Guía a practicantes en comprensión de requisitos de muestra
- Proporciona base teórica para diseño de algoritmos (como selección de tasa de aprendizaje)
- Identifica cuellos de botella clave (error de optimización)
Reproducibilidad:
- Como trabajo teórico, prueba detallada y verificable
- Suposiciones explícitas, aplicable cuando se satisfacen condiciones
- Pero falta código o experimentos, aplicación práctica requiere trabajo adicional

Escenarios Aplicables

Investigación Teórica: Proporciona base teórica para modelos de difusión, coincidencia de puntuación, modelos generativos
Diseño de Algoritmos: Guía estrategias de entrenamiento (tamaño de muestra, tasa de aprendizaje, parada temprana)
Planificación de Recursos: Estima recursos computacionales y de datos necesarios para alcanzar calidad objetivo
Verificación de Suposiciones: Aplicable en configuraciones específicas satisfaciendo condiciones PL

No Aplicable A:

Aplicaciones requiriendo constantes ajustadas
Optimización no convexa general sin condición PL
Tareas de generación condicional (actualmente no cubiertas)

Análisis Profundo de Puntos Técnicos Destacados

Manejo Innovador de Error Estadístico

La teoría de aprendizaje estadístico tradicional (como Shalev-Shwartz & Ben-David, 2014) requiere funciones de pérdida acotadas para aplicar complejidad de Rademacher. Pero la función de puntuación $\nabla \log p_t(x) = \frac{x - e^{-t}x_0}{\sigma_t^2}$ es no acotada cuando $x$ es no acotado.

Solución:

Definir función de puntuación truncada:

undefined