2025-11-17T13:58:12.673309

Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity

Bravo, Flores-Mella, GuzmÃ¡n

We study the mixing time of the projected Langevin algorithm (LA) and the privacy curve of noisy Stochastic Gradient Descent (SGD), beyond nonexpansive iterations. Specifically, we derive new mixing time bounds for the projected LA which are, in some important cases, dimension-free and poly-logarithmic on the accuracy, closely matching the existing results in the smooth convex case. Additionally, we establish new upper bounds for the privacy curve of the subsampled noisy SGD algorithm. These bounds show a crucial dependency on the regularity of gradients, and are useful for a wide range of convex losses beyond the smooth case. Our analysis relies on a suitable extension of the Privacy Amplification by Iteration (PABI) framework (Feldman et al., 2018; Altschuler and Talwar, 2022, 2023) to noisy iterations whose gradient map is not necessarily nonexpansive. This extension is achieved by designing an optimization problem which accounts for the best possible RÃ©nyi divergence bound obtained by an application of PABI, where the tractability of the problem is crucially related to the modulus of continuity of the associated gradient mapping. We show that, in several interesting cases -- namely the nonsmooth convex, weakly smooth and (strongly) dissipative -- such optimization problem can be solved exactly and explicitly, yielding the tightest possible PABI-based bounds.

academic

Tiempos de Mezcla y Análisis de Privacidad para el Algoritmo de Langevin Proyectado bajo un Módulo de Continuidad

Información Básica

ID del Artículo: 2501.04134
Título: Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity
Autores: Mario Bravo, Juan Pablo Flores-Mella, Cristóbal Guzmán
Clasificación: stat.ML cs.LG math.OC math.ST stat.TH
Fecha de Publicación: Enero de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2501.04134

Resumen

Este artículo investiga los tiempos de mezcla del algoritmo de Langevin proyectado y las curvas de privacidad del descenso de gradiente estocástico (SGD) ruidoso, más allá del alcance de iteraciones no expansivas. Específicamente, los autores derivan nuevas cotas de tiempo de mezcla para el algoritmo de Langevin proyectado que, en ciertos casos importantes, son independientes de la dimensión y polilogarítmicas en precisión, coincidiendo estrechamente con resultados existentes en el caso convexo suave. Además, el artículo establece nuevas cotas superiores de curvas de privacidad para algoritmos de SGD con submuestreo. Estas cotas demuestran una dependencia crítica de la regularidad del gradiente, siendo útiles para una amplia clase de funciones de pérdida convexa más allá del caso suave.

Antecedentes y Motivación de la Investigación

Contexto del Problema

Importancia del Problema de Muestreo: El muestreo de distribuciones log-cóncavas π ∝ e^(-f) es un problema algorítmico fundamental que constituye un bloque de construcción para estimación de volumen, optimización, estadística bayesiana, aprendizaje automático y privacidad diferencial.
Algoritmo de Langevin: El algoritmo de Langevin aproxima la simulación de la distribución objetivo discretizando la difusión de Langevin:
```
dL_t = -∇f(L_t)dt + √2dW_t
```
Después de la discretización se obtiene la cadena de Markov:
```
X_{t+1} = Π_X[X_t - η∇f(X_t) + √(2η)ξ_t]
```
Limitaciones de Métodos Existentes:
- La mayoría de investigaciones se concentran en configuraciones de funciones potencial fuertemente convexas y suaves
- Hay menos investigación sobre funciones potencial convexas no suaves
- La técnica PABI (Privacy Amplification by Iteration) se limita principalmente a iteraciones no expansivas

Motivación de la Investigación

Este artículo tiene como objetivo extender la técnica PABI más allá de iteraciones no expansivas, cuantificando la regularidad del mapeo subyacente mediante un módulo de continuidad, permitiendo así tratar una clase más amplia de funciones potencial incluyendo funciones no diferenciables.

Contribuciones Principales

Extensión del Marco PABI: Extiende la técnica PABI a mapeos generales con módulo de continuidad, incluso pudiendo manejar mapeos discontinuos.
Diseño de Problema de Optimización: Diseña un problema de optimización para obtener las cotas de divergencia de Rényi más ajustadas en la aplicación de PABI, cuya tratabilidad está estrechamente relacionada con el módulo de continuidad del mapeo de gradiente relevante.
Soluciones Explícitas: Demuestra que cuando el módulo de continuidad tiene la forma φ(δ) = √(cδ² + h), el problema de optimización puede resolverse explícitamente de manera exacta.
Cotas de Tiempo de Mezcla: Establece nuevas cotas de tiempo de mezcla para casos convexos y (p,M)-débilmente suaves, siendo en ciertos casos independientes de la dimensión y polilogarítmicas en precisión.
Análisis de Curvas de Privacidad: Establece nuevas cotas superiores de curvas de privacidad para SGD ruidoso, demostrando dependencia crítica de la regularidad del gradiente.

Explicación Detallada de Métodos

Definición de Tareas

Se estudian iteraciones proyectadas ruidosas:

X_{t+1} = Π_X[Φ_t(X_t) + ξ_t], ξ_t ~ N(0, σ²_t I_{d×d})

donde Φ_t posee módulo de continuidad φ_t.

Marco del Módulo de Continuidad

Definición

Para un mapeo Φ: X ⊆ ℝ^d → ℝ^d, una función no decreciente φ: ℝ₊ → ℝ₊ es un módulo de continuidad de Φ si:

‖Φ(x) - Φ(y)‖ ≤ φ(‖x - y‖) ∀x, y ∈ X

Casos Importantes

Lipschitz Convexo: φ(δ) = √(δ² + (2ηL)²)
Convexo (p,M)-Débilmente Suave: φ(δ) = √(δ² + (2η^(1/(1-p))√((1-p)/(1+p))(M/2)^(1/(1-p)))²)
Disipación Fuerte: φ(δ) = √((1-2ηκ+η²β²)δ² + 2ηλ)

Extensión de PABI

Lema Central

Lema 3.2: Sea X ⊆ ℝ^d un conjunto cerrado convexo, Φ con módulo de continuidad φ. Para variables aleatorias X, X' y ruido gaussiano ξ ~ N(0, σ²I), sea Y = Π_XΦ(X) + ξ, Y' = Π_XΦ(X') + ξ, entonces para cualquier 0 < a ≤ φ(δ):

R_α^(φ(δ)-a)(Y‖Y') ≤ R_α^(δ)(X‖X') + αa²/(2σ²)

Problema de Optimización Desplazado

Para obtener las cotas PABI más ajustadas, es necesario resolver el problema de optimización desplazado:

min_{u∈R} E(u) := Σ_{t=1}^T (φ_{t-1}(u_{t-1}) - u_t)²/σ²_{t-1}

Resultados Teóricos Principales

Teorema 3.4 (Resultado Principal)

Sea φ_t(δ) = √(c_tδ² + h_t), entonces para iteraciones proyectadas ruidosas:

R_α(X_T‖X'_T) ≤ α/2 [Π_{k=0}^{T-1}c_k D² / Σ_{j=0}^{T-1}σ²_j Π_{l=j+1}^{T-1}c_l + Σ_{t=0}^{T-1} h_t Π_{k=t+1}^{T-1}c_k / Σ_{j=t}^{T-1}σ²_j Π_{l=j+1}^{T-1}c_l]

Configuración Experimental

Marco de Análisis Teórico

Este trabajo es principalmente teórico, estableciendo cotas mediante pruebas matemáticas rigurosas en lugar de experimentos empíricos. El análisis incluye:

Análisis de Tiempo de Mezcla: Evaluación de velocidad de convergencia usando distancia de variación total
Análisis de Privacidad: Uso del marco de privacidad diferencial de Rényi
Análisis de Optimización: Demostración de existencia y unicidad de soluciones óptimas del problema desplazado

Métricas de Evaluación

Tiempo de Mezcla: T_{mix,TV}(ε) = min{t ∈ ℕ: d(t) ≤ ε}
Divergencia de Rényi: R_α(μ‖ν)
Distancia de Variación Total: ‖μ - ν‖_

Resultados Experimentales

Cotas de Tiempo de Mezcla

Teorema 4.2 (Caso Débilmente Suave)

Para funciones convexas y (p,M)-débilmente suaves, si 1/η ≥ Θ, entonces:

T_{mix,TV}(ε) ≤ ⌈D²/η⌉ · ⌈log₂(1/ε)⌉

donde Θ = (M/2)^(2/(1+p))(1-p)/(1+p) max{16ln(D(M/2)^(1/(1-p))e), 27}^((1-p)/(1+p))

Teorema 4.3 (Caso de Disipación Fuerte)

Para funciones (λ,κ)-fuertemente disipativas y β-suaves, sea c = 1 - 2ηκ + η²β² < 1, entonces:

T_{mix,TV}(ε) = O(log_{1/c}(1 + D²(1-c)/(4η)) · (e/(1-c))^{λ/2} log₂(1/ε))

Análisis de Curvas de Privacidad

Teorema 5.2 (SGD Ruidoso)

Para pérdidas convexas, L-Lipschitz y (p,M)-débilmente suaves, SGD ruidoso satisface (α,ε)-RDP, donde:

ε ≤ α/σ² [16L²T/n² + D²/(η²T) + 4η^(2p/(1-p))(1-p)/(1+p)(M/2)^(2/(1-p))ln(T·e)]

Hallazgos Clave

Independencia de Dimensión: En ciertos casos, las cotas de tiempo de mezcla no dependen de la dimensión d
Dependencia de Regularidad: Las cotas de privacidad dependen significativamente de los parámetros de regularidad del gradiente p
Optimalidad: Para módulos de continuidad de la forma φ(δ) = √(cδ² + h), el problema de optimización tiene una solución óptima única
Casos Degenerados: Cuando p = 0 (caso Lipschitz), no se pueden obtener cotas de privacidad que desaparezcan cuando n → ∞

Trabajo Relacionado

Investigación del Algoritmo de Langevin

Caso Suave Fuertemente Convexo: Numerosas investigaciones de Dalalyan (2017), Durmus y Moulines (2019), entre otros
Caso No Suave: Investigación relativamente escasa, incluyendo principalmente Pereyra (2016), Chatterji et al. (2020), entre otros

Técnica PABI

Marco Original: Propuesto por Feldman et al. (2018)
Aplicaciones Extendidas: Aplicado por Altschuler y Talwar (2022, 2023) al caso convexo suave
Contribución de este Artículo: Extensión al marco del módulo de continuidad

Privacidad Diferencial

Análisis Clásico: Asume que todas las iteraciones se publican
Última Iteración: Investigada por Chourasia et al. (2021), Ye y Shokri (2022), entre otros

Conclusiones y Discusión

Conclusiones Principales

Extensión exitosa de la técnica PABI más allá de iteraciones no expansivas
Establecimiento de cotas ajustadas para múltiples clases importantes de funciones potencial
Demostración del papel crítico del módulo de continuidad en análisis de privacidad y muestreo

Limitaciones

Caso No Suave: No se pueden obtener amplificaciones de privacidad no triviales en el caso Lipschitz
Restricciones de Tamaño de Paso: Ciertos resultados requieren restricciones de tamaño de paso más estrictas
Forma Específica: Los resultados principales se limitan a módulos de continuidad de la forma φ(δ) = √(cδ² + h)

Direcciones Futuras

Extensión a formas más generales de módulos de continuidad
Mejora de cotas de privacidad en casos no suaves
Investigación de configuraciones más complejas como problemas de punto de silla

Evaluación Profunda

Fortalezas

Innovación Teórica: Extensión exitosa de la técnica PABI a configuraciones más generales, con valor teórico importante
Rigor Matemático: Pruebas completas y rigurosas, con soluciones analíticas del problema de optimización que demuestran profunda intuición matemática
Valor Práctico: Los resultados son aplicables a una amplia clase de funciones potencial incluyendo funciones no diferenciables
Marco Unificado: Proporciona un marco de análisis unificado mediante el módulo de continuidad

Insuficiencias

Aplicabilidad Limitada: Los resultados principales se limitan a formas específicas de módulos de continuidad
Verificación Empírica: Carencia de experimentos numéricos para verificar la ajustabilidad de los resultados teóricos
Desafíos No Suaves: Los resultados de privacidad en casos no suaves son relativamente pesimistas

Impacto

Contribución Teórica: Proporciona nuevas herramientas teóricas para análisis de muestreo y privacidad
Valor Metodológico: El método del módulo de continuidad puede inspirar investigaciones relacionadas
Orientación Práctica: Proporciona orientación teórica para el diseño de algoritmos prácticos

Escenarios Aplicables

Inferencia Bayesiana: Muestreo posterior que involucra priors no suaves
Privacidad Diferencial: Aplicaciones de aprendizaje automático que requieren garantías de privacidad precisas
Optimización: Análisis de algoritmos estocásticos para problemas de optimización convexa no suave

Referencias

Altschuler, J. and Talwar, K. (2022, 2023). Privacy amplification by iteration
Feldman, V. et al. (2018). Privacy amplification by iteration
Dalalyan, A. (2017). Langevin Monte Carlo analysis
Bubeck, S. et al. (2018). Projected Langevin Monte Carlo

Este artículo realiza contribuciones importantes en los campos del aprendizaje automático teórico y la privacidad diferencial. Mediante el uso innovador del módulo de continuidad, extiende exitosamente el alcance de la técnica PABI, proporcionando nuevas herramientas teóricas para el análisis de optimización no suave y algoritmos de protección de privacidad.