2025-11-17T13:58:12.673309

Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity

Bravo, Flores-Mella, Guzmán
We study the mixing time of the projected Langevin algorithm (LA) and the privacy curve of noisy Stochastic Gradient Descent (SGD), beyond nonexpansive iterations. Specifically, we derive new mixing time bounds for the projected LA which are, in some important cases, dimension-free and poly-logarithmic on the accuracy, closely matching the existing results in the smooth convex case. Additionally, we establish new upper bounds for the privacy curve of the subsampled noisy SGD algorithm. These bounds show a crucial dependency on the regularity of gradients, and are useful for a wide range of convex losses beyond the smooth case. Our analysis relies on a suitable extension of the Privacy Amplification by Iteration (PABI) framework (Feldman et al., 2018; Altschuler and Talwar, 2022, 2023) to noisy iterations whose gradient map is not necessarily nonexpansive. This extension is achieved by designing an optimization problem which accounts for the best possible Rényi divergence bound obtained by an application of PABI, where the tractability of the problem is crucially related to the modulus of continuity of the associated gradient mapping. We show that, in several interesting cases -- namely the nonsmooth convex, weakly smooth and (strongly) dissipative -- such optimization problem can be solved exactly and explicitly, yielding the tightest possible PABI-based bounds.
academic

Temps de Mélange et Analyse de Confidentialité pour l'Algorithme de Langevin Projeté sous un Module de Continuité

Informations Fondamentales

  • ID de l'article: 2501.04134
  • Titre: Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity
  • Auteurs: Mario Bravo, Juan Pablo Flores-Mella, Cristóbal Guzmán
  • Classification: stat.ML cs.LG math.OC math.ST stat.TH
  • Date de publication: Janvier 2025 (préimpression arXiv)
  • Lien de l'article: https://arxiv.org/abs/2501.04134

Résumé

Cet article étudie les temps de mélange de l'algorithme de Langevin projeté et les courbes de confidentialité de la descente de gradient stochastique bruitée (SGD), au-delà du cadre des itérations non-expansives. Plus précisément, les auteurs dérivent de nouvelles bornes de temps de mélange pour l'algorithme de Langevin projeté qui, dans certains cas importants, sont sans dimension et polylogarithmiques en précision, correspondant étroitement aux résultats existants dans le cas convexe lisse. De plus, l'article établit de nouvelles bornes supérieures de courbes de confidentialité pour les algorithmes SGD bruitées avec sous-échantillonnage. Ces bornes révèlent une dépendance critique à la régularité du gradient, utile pour une large classe de fonctions de perte convexes au-delà du cas lisse.

Contexte et Motivation de la Recherche

Contexte du Problème

  1. Importance du problème d'échantillonnage: L'échantillonnage à partir de distributions log-concaves π ∝ e^(-f) est un problème algorithmique fondamental, constituant un bloc de construction pour l'estimation de volume, l'optimisation, les statistiques bayésiennes, l'apprentissage automatique et la confidentialité différentielle.
  2. Algorithme de Langevin: L'algorithme de Langevin approxime la simulation de la distribution cible en discrétisant la diffusion de Langevin:
    dL_t = -∇f(L_t)dt + √2dW_t
    

    Après discrétisation, on obtient la chaîne de Markov:
    X_{t+1} = Π_X[X_t - η∇f(X_t) + √(2η)ξ_t]
    
  3. Limitations des approches existantes:
    • La plupart des recherches se concentrent sur les fonctions potentielles fortement convexes et lisses
    • Peu d'études sur les potentiels convexes non-lisses
    • La technique PABI (Privacy Amplification by Iteration) est principalement limitée aux itérations non-expansives

Motivation de la Recherche

Cet article vise à étendre la technique PABI au-delà des itérations non-expansives, en utilisant le module de continuité pour quantifier la régularité des applications sous-jacentes, permettant ainsi de traiter une classe plus large de fonctions potentielles, y compris les fonctions non-différentiables.

Contributions Principales

  1. Extension du cadre PABI: Extension de la technique PABI aux applications générales avec module de continuité, pouvant même traiter les applications discontinues.
  2. Conception de problèmes d'optimisation: Conception d'un problème d'optimisation pour obtenir les bornes de divergence de Rényi optimales pour l'application de PABI, dont la tractabilité est étroitement liée au module de continuité des applications de gradient pertinentes.
  3. Solutions explicites: Démonstration que lorsque le module de continuité est de la forme φ(δ) = √(cδ² + h), le problème d'optimisation peut être résolu explicitement et exactement.
  4. Bornes de temps de mélange: Établissement de nouvelles bornes de temps de mélange pour les cas convexes et (p,M)-faiblement lisses, qui dans certains cas sont sans dimension et polylogarithmiques en précision.
  5. Analyse des courbes de confidentialité: Établissement de nouvelles bornes supérieures de courbes de confidentialité pour SGD bruitée, révélant une dépendance critique à la régularité du gradient.

Détails de la Méthode

Définition de la Tâche

Étude des itérations bruitées projetées:

X_{t+1} = Π_X[Φ_t(X_t) + ξ_t], ξ_t ~ N(0, σ²_t I_{d×d})

où Φ_t possède un module de continuité φ_t.

Cadre du Module de Continuité

Définition

Pour une application Φ: X ⊆ ℝ^d → ℝ^d, une fonction non-décroissante φ: ℝ₊ → ℝ₊ est un module de continuité de Φ si:

‖Φ(x) - Φ(y)‖ ≤ φ(‖x - y‖) ∀x, y ∈ X

Cas Importants

  1. Convexe Lipschitz: φ(δ) = √(δ² + (2ηL)²)
  2. Convexe (p,M)-faiblement lisse: φ(δ) = √(δ² + (2η^(1/(1-p))√((1-p)/(1+p))(M/2)^(1/(1-p)))²)
  3. Dissipation forte: φ(δ) = √((1-2ηκ+η²β²)δ² + 2ηλ)

Extension de PABI

Lemme Principal

Lemme 3.2: Soit X ⊆ ℝ^d un ensemble fermé convexe, Φ possédant un module de continuité φ. Pour les variables aléatoires X, X' et le bruit gaussien ξ ~ N(0, σ²I), soit Y = Π_XΦ(X) + ξ, Y' = Π_XΦ(X') + ξ, alors pour tout 0 < a ≤ φ(δ):

R_α^(φ(δ)-a)(Y‖Y') ≤ R_α^(δ)(X‖X') + αa²/(2σ²)

Problème d'Optimisation Décalée

Pour obtenir les bornes PABI les plus serrées, il faut résoudre le problème d'optimisation décalée:

min_{u∈R} E(u) := Σ_{t=1}^T (φ_{t-1}(u_{t-1}) - u_t)²/σ²_{t-1}

Résultats Théoriques Principaux

Théorème 3.4 (Résultat Principal)

Soit φ_t(δ) = √(c_tδ² + h_t), alors pour les itérations bruitées projetées:

R_α(X_T‖X'_T) ≤ α/2 [Π_{k=0}^{T-1}c_k D² / Σ_{j=0}^{T-1}σ²_j Π_{l=j+1}^{T-1}c_l + Σ_{t=0}^{T-1} h_t Π_{k=t+1}^{T-1}c_k / Σ_{j=t}^{T-1}σ²_j Π_{l=j+1}^{T-1}c_l]

Configuration Expérimentale

Cadre d'Analyse Théorique

Cet article est principalement un travail théorique établissant des bornes par des preuves mathématiques rigoureuses, plutôt que par des expériences empiriques. L'analyse comprend:

  1. Analyse du temps de mélange: Utilisation de la distance de variation totale pour évaluer la vitesse de convergence
  2. Analyse de confidentialité: Utilisation du cadre de confidentialité différentielle de Rényi
  3. Analyse d'optimisation: Démonstration de l'existence et de l'unicité de la solution optimale du problème décalé

Métriques d'Évaluation

  • Temps de mélange: T_{mix,TV}(ε) = min{t ∈ ℕ: d(t) ≤ ε}
  • Divergence de Rényi: R_α(μ‖ν)
  • Distance de variation totale: ‖μ - ν‖_

Résultats Expérimentaux

Bornes de Temps de Mélange

Théorème 4.2 (Cas Faiblement Lisse)

Pour les fonctions convexes et (p,M)-faiblement lisses, si 1/η ≥ Θ, alors:

T_{mix,TV}(ε) ≤ ⌈D²/η⌉ · ⌈log₂(1/ε)⌉

où Θ = (M/2)^(2/(1+p))(1-p)/(1+p) max{16ln(D(M/2)^(1/(1-p))e), 27}^((1-p)/(1+p))

Théorème 4.3 (Cas de Dissipation Forte)

Pour les fonctions (λ,κ)-fortement dissipatives et β-lisses, soit c = 1 - 2ηκ + η²β² < 1, alors:

T_{mix,TV}(ε) = O(log_{1/c}(1 + D²(1-c)/(4η)) · (e/(1-c))^{λ/2} log₂(1/ε))

Analyse des Courbes de Confidentialité

Théorème 5.2 (SGD Bruitée)

Pour les pertes convexes, L-Lipschitz et (p,M)-faiblement lisses, SGD bruitée satisfait (α,ε)-RDP, où:

ε ≤ α/σ² [16L²T/n² + D²/(η²T) + 4η^(2p/(1-p))(1-p)/(1+p)(M/2)^(2/(1-p))ln(T·e)]

Découvertes Clés

  1. Indépendance dimensionnelle: Dans certains cas, les bornes de temps de mélange ne dépendent pas de la dimension d
  2. Dépendance à la régularité: Les bornes de confidentialité dépendent significativement des paramètres de régularité du gradient p
  3. Optimalité: Pour les modules de continuité de la forme φ(δ) = √(cδ² + h), le problème d'optimisation possède une solution optimale unique
  4. Cas dégénérés: Lorsque p = 0 (cas Lipschitz), on ne peut pas obtenir de bornes de confidentialité qui disparaissent lorsque n → ∞

Travaux Connexes

Recherche sur l'Algorithme de Langevin

  • Cas lisse et fortement convexe: Nombreuses études de Dalalyan (2017), Durmus et Moulines (2019), etc.
  • Cas non-lisse: Recherche relativement peu abondante, incluant principalement Pereyra (2016), Chatterji et al. (2020), etc.

Technique PABI

  • Cadre original: Proposé par Feldman et al. (2018)
  • Applications étendues: Altschuler et Talwar (2022, 2023) appliquées au cas convexe lisse
  • Contribution de cet article: Extension au cadre du module de continuité

Confidentialité Différentielle

  • Analyse classique: Suppose que toutes les itérations sont publiées
  • Dernière itération: Études de Chourasia et al. (2021), Ye et Shokri (2022), etc. sur la confidentialité de la dernière itération

Conclusions et Discussion

Conclusions Principales

  1. Extension réussie de la technique PABI au-delà des itérations non-expansives
  2. Établissement de bornes serrées pour plusieurs classes importantes de fonctions potentielles
  3. Démonstration du rôle crucial du module de continuité dans l'analyse de confidentialité et d'échantillonnage

Limitations

  1. Cas non-lisse: Impossible d'obtenir une amplification de confidentialité non-triviale dans le cas Lipschitz
  2. Restrictions sur le pas: Certains résultats nécessitent des contraintes de pas plus strictes
  3. Forme spécifique: Les résultats principaux sont limités aux modules de continuité de la forme φ(δ) = √(cδ² + h)

Directions Futures

  1. Extension à des formes de modules de continuité plus générales
  2. Amélioration des bornes de confidentialité dans le cas non-lisse
  3. Étude de problèmes plus complexes comme les problèmes de point selle

Évaluation Approfondie

Points Forts

  1. Innovation théorique: Extension réussie de la technique PABI à des cadres plus généraux, possédant une valeur théorique importante
  2. Rigueur mathématique: Preuves complètes et rigoureuses, les solutions analytiques du problème d'optimisation démontrent des intuitions mathématiques profondes
  3. Valeur pratique: Les résultats s'appliquent à une large classe de fonctions potentielles, y compris les fonctions non-différentiables
  4. Cadre unifié: Fourniture d'un cadre d'analyse unifié via le module de continuité

Insuffisances

  1. Application limitée: Les résultats principaux sont limités à des formes spécifiques de modules de continuité
  2. Vérification empirique: Absence d'expériences numériques vérifiant la serretté des résultats théoriques
  3. Défi non-lisse: Les résultats de confidentialité dans le cas non-lisse sont relativement pessimistes

Impact

  1. Contribution théorique: Fourniture de nouveaux outils théoriques pour l'analyse d'échantillonnage et de confidentialité
  2. Valeur méthodologique: La méthode du module de continuité peut inspirer d'autres recherches connexes
  3. Orientation pratique: Fourniture de conseils théoriques pour la conception d'algorithmes pratiques

Scénarios Applicables

  1. Inférence bayésienne: Échantillonnage postérieur impliquant des priors non-lisses
  2. Confidentialité différentielle: Applications d'apprentissage automatique nécessitant des garanties de confidentialité précises
  3. Optimisation: Analyse d'algorithmes stochastiques pour les problèmes d'optimisation convexe non-lisse

Références

  • Altschuler, J. et Talwar, K. (2022, 2023). Privacy amplification by iteration
  • Feldman, V. et al. (2018). Privacy amplification by iteration
  • Dalalyan, A. (2017). Langevin Monte Carlo analysis
  • Bubeck, S. et al. (2018). Projected Langevin Monte Carlo

Cet article apporte des contributions importantes dans les domaines de l'apprentissage automatique théorique et de la confidentialité différentielle. Par l'utilisation innovante du module de continuité, il étend avec succès l'applicabilité de la technique PABI, fournissant de nouveaux outils théoriques pour l'analyse de l'optimisation non-lisse et des algorithmes de protection de la confidentialité.