2025-11-17T13:58:12.673309

Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity

Bravo, Flores-Mella, Guzmán
We study the mixing time of the projected Langevin algorithm (LA) and the privacy curve of noisy Stochastic Gradient Descent (SGD), beyond nonexpansive iterations. Specifically, we derive new mixing time bounds for the projected LA which are, in some important cases, dimension-free and poly-logarithmic on the accuracy, closely matching the existing results in the smooth convex case. Additionally, we establish new upper bounds for the privacy curve of the subsampled noisy SGD algorithm. These bounds show a crucial dependency on the regularity of gradients, and are useful for a wide range of convex losses beyond the smooth case. Our analysis relies on a suitable extension of the Privacy Amplification by Iteration (PABI) framework (Feldman et al., 2018; Altschuler and Talwar, 2022, 2023) to noisy iterations whose gradient map is not necessarily nonexpansive. This extension is achieved by designing an optimization problem which accounts for the best possible Rényi divergence bound obtained by an application of PABI, where the tractability of the problem is crucially related to the modulus of continuity of the associated gradient mapping. We show that, in several interesting cases -- namely the nonsmooth convex, weakly smooth and (strongly) dissipative -- such optimization problem can be solved exactly and explicitly, yielding the tightest possible PABI-based bounds.
academic

Mischungszeiten und Datenschutzanalyse für den projizierten Langevin-Algorithmus unter einem Stetigkeitsmodul

Grundinformationen

  • Paper-ID: 2501.04134
  • Titel: Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity
  • Autoren: Mario Bravo, Juan Pablo Flores-Mella, Cristóbal Guzmán
  • Klassifizierung: stat.ML cs.LG math.OC math.ST stat.TH
  • Veröffentlichungsdatum: Januar 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2501.04134

Zusammenfassung

Diese Arbeit untersucht die Mischungszeiten des projizierten Langevin-Algorithmus und die Datenschutzkurven des rauschbehafteten stochastischen Gradientenabstiegs (SGD), über den Bereich der nicht-expansiven Iterationen hinaus. Konkret leiten die Autoren neue Mischungszeitgrenzen für den projizierten Langevin-Algorithmus her, die in bestimmten wichtigen Fällen dimensionsfrei und polylogarithmisch in der Genauigkeit sind und eng mit bestehenden Ergebnissen im glattem konvexem Fall übereinstimmen. Darüber hinaus werden neue Obergrenzen für Datenschutzkurven für Subsampling-rauschbehaftete SGD-Algorithmen etabliert. Diese Grenzen zeigen eine kritische Abhängigkeit von der Gradienten-Regularität und sind für eine breite Klasse von konvexen Verlustfunktionen jenseits des glattem Falls nützlich.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Bedeutung des Stichprobenproblems: Das Sampling aus log-konkaven Verteilungen π ∝ e^(-f) ist ein grundlegendes algorithmisches Problem und ein Baustein für Volumenabschätzung, Optimierung, Bayessche Statistik, maschinelles Lernen und Differenzielle Privatsphäre.
  2. Langevin-Algorithmus: Der Langevin-Algorithmus approximiert die Zielverteilung durch Diskretisierung der Langevin-Diffusion:
    dL_t = -∇f(L_t)dt + √2dW_t
    

    Nach Diskretisierung ergibt sich die Markov-Kette:
    X_{t+1} = Π_X[X_t - η∇f(X_t) + √(2η)ξ_t]
    
  3. Einschränkungen bestehender Methoden:
    • Die meisten Forschungen konzentrieren sich auf stark konvexe glatte Potentialfunktionen
    • Forschung zu nicht-glattem konvexem Potenzial ist begrenzt
    • PABI-Techniken (Privacy Amplification by Iteration) sind hauptsächlich auf nicht-expansive Iterationen beschränkt

Forschungsmotivation

Diese Arbeit zielt darauf ab, die PABI-Technik über nicht-expansive Iterationen hinaus zu erweitern, indem ein Stetigkeitsmodul verwendet wird, um die Regularität der zugrunde liegenden Abbildung zu quantifizieren, wodurch eine breitere Klasse von Potentialfunktionen, einschließlich nicht-differenzierbarer Funktionen, behandelt werden kann.

Kernbeiträge

  1. Erweiterung des PABI-Rahmens: Erweiterung der PABI-Technik auf allgemeine Abbildungen mit Stetigkeitsmodul, die sogar diskontinuierliche Abbildungen behandeln können.
  2. Optimierungsproblem-Design: Entwurf eines Optimierungsproblems zur Erlangung optimaler Rényi-Divergenz-Grenzen für PABI-Anwendungen, dessen Lösbarkeit eng mit dem Stetigkeitsmodul der relevanten Gradientenabbildung zusammenhängt.
  3. Explizite Lösung: Beweis, dass das Optimierungsproblem exakt gelöst werden kann, wenn das Stetigkeitsmodul die Form φ(δ) = √(cδ² + h) hat.
  4. Mischungszeitgrenzen: Etablierung neuer Mischungszeitgrenzen für konvexe und (p,M)-schwach glatte Fälle, die in bestimmten Fällen dimensionsfrei und polylogarithmisch in der Genauigkeit sind.
  5. Datenschutzkurvenanalyse: Etablierung neuer Obergrenzen für Datenschutzkurven für rauschbehaftetes SGD, die eine kritische Abhängigkeit von der Gradienten-Regularität zeigen.

Methodische Details

Aufgabendefinition

Untersuchung der projizierten rauschbehafteten Iteration:

X_{t+1} = Π_X[Φ_t(X_t) + ξ_t], ξ_t ~ N(0, σ²_t I_{d×d})

wobei Φ_t ein Stetigkeitsmodul φ_t hat.

Stetigkeitsmodul-Rahmen

Definition

Für eine Abbildung Φ: X ⊆ ℝ^d → ℝ^d ist eine nicht-abnehmende Funktion φ: ℝ₊ → ℝ₊ ein Stetigkeitsmodul von Φ, wenn:

‖Φ(x) - Φ(y)‖ ≤ φ(‖x - y‖) ∀x, y ∈ X

Wichtige Fälle

  1. Konvex Lipschitz: φ(δ) = √(δ² + (2ηL)²)
  2. Konvex (p,M)-schwach glatt: φ(δ) = √(δ² + (2η^(1/(1-p))√((1-p)/(1+p))(M/2)^(1/(1-p)))²)
  3. Starke Dissipation: φ(δ) = √((1-2ηκ+η²β²)δ² + 2ηλ)

PABI-Erweiterung

Kern-Lemma

Lemma 3.2: Sei X ⊆ ℝ^d eine abgeschlossene konvexe Menge und Φ habe ein Stetigkeitsmodul φ. Für Zufallsvariablen X, X' und Gaußsches Rauschen ξ ~ N(0, σ²I), sei Y = Π_XΦ(X) + ξ, Y' = Π_XΦ(X') + ξ, dann für alle 0 < a ≤ φ(δ):

R_α^(φ(δ)-a)(Y‖Y') ≤ R_α^(δ)(X‖X') + αa²/(2σ²)

Verschiebungs-Optimierungsproblem

Um die engsten PABI-Grenzen zu erhalten, muss das Verschiebungs-Optimierungsproblem gelöst werden:

min_{u∈R} E(u) := Σ_{t=1}^T (φ_{t-1}(u_{t-1}) - u_t)²/σ²_{t-1}

Haupttheoretische Ergebnisse

Theorem 3.4 (Hauptergebnis)

Sei φ_t(δ) = √(c_tδ² + h_t), dann für die projizierte rauschbehaftete Iteration:

R_α(X_T‖X'_T) ≤ α/2 [Π_{k=0}^{T-1}c_k D² / Σ_{j=0}^{T-1}σ²_j Π_{l=j+1}^{T-1}c_l + Σ_{t=0}^{T-1} h_t Π_{k=t+1}^{T-1}c_k / Σ_{j=t}^{T-1}σ²_j Π_{l=j+1}^{T-1}c_l]

Experimentelle Einrichtung

Theoretischer Analyserahmen

Diese Arbeit ist hauptsächlich eine theoretische Arbeit, die durch strenge mathematische Beweise Grenzen etabliert, anstatt empirische Experimente durchzuführen. Die Analyse umfasst:

  1. Mischungszeitanalyse: Verwendung der Totalvariationsdistanz zur Bewertung der Konvergenzgeschwindigkeit
  2. Datenschutzanalyse: Verwendung des Rényi-Differenzielle-Privatsphäre-Rahmens
  3. Optimierungsanalyse: Beweis der Existenz und Eindeutigkeit optimaler Lösungen des Verschiebungs-Optimierungsproblems

Bewertungsmetriken

  • Mischungszeit: T_{mix,TV}(ε) = min{t ∈ ℕ: d(t) ≤ ε}
  • Rényi-Divergenz: R_α(μ‖ν)
  • Totalvariationsdistanz: ‖μ - ν‖_

Experimentelle Ergebnisse

Mischungszeitgrenzen

Theorem 4.2 (Schwach glatter Fall)

Für konvexe und (p,M)-schwach glatte Funktionen, wenn 1/η ≥ Θ, dann:

T_{mix,TV}(ε) ≤ ⌈D²/η⌉ · ⌈log₂(1/ε)⌉

wobei Θ = (M/2)^(2/(1+p))(1-p)/(1+p) max{16ln(D(M/2)^(1/(1-p))e), 27}^((1-p)/(1+p))

Theorem 4.3 (Stark dissipativer Fall)

Für (λ,κ)-stark dissipative und β-glatte Funktionen, sei c = 1 - 2ηκ + η²β² < 1, dann:

T_{mix,TV}(ε) = O(log_{1/c}(1 + D²(1-c)/(4η)) · (e/(1-c))^{λ/2} log₂(1/ε))

Datenschutzkurvenanalyse

Theorem 5.2 (Rauschbehaftetes SGD)

Für konvexe, L-Lipschitz und (p,M)-schwach glatte Verluste erfüllt rauschbehaftetes SGD (α,ε)-RDP, wobei:

ε ≤ α/σ² [16L²T/n² + D²/(η²T) + 4η^(2p/(1-p))(1-p)/(1+p)(M/2)^(2/(1-p))ln(T·e)]

Wichtigste Erkenntnisse

  1. Dimensionsfreiheit: In bestimmten Fällen sind Mischungszeitgrenzen unabhängig von der Dimension d
  2. Regularitätsabhängigkeit: Datenschutzgrenzen hängen signifikant von Regularitätsparametern des Gradienten p ab
  3. Optimalität: Für Stetigkeitsmodule der Form φ(δ) = √(cδ² + h) hat das Optimierungsproblem eine eindeutige optimale Lösung
  4. Degenerierte Fälle: Wenn p = 0 (Lipschitz-Fall), können keine nicht-trivialen Datenschutzgrenzen erhalten werden, die mit n → ∞ verschwinden

Verwandte Arbeiten

Langevin-Algorithmus-Forschung

  • Glatter stark konvexer Fall: Umfangreiche Forschung von Dalalyan (2017), Durmus und Moulines (2019) u.a.
  • Nicht-glatter Fall: Relativ wenig Forschung, hauptsächlich Pereyra (2016), Chatterji et al. (2020) u.a.

PABI-Technik

  • Ursprünglicher Rahmen: Feldman et al. (2018)
  • Erweiterungsanwendungen: Altschuler und Talwar (2022, 2023) auf glattem konvexem Fall
  • Beitrag dieser Arbeit: Erweiterung auf Stetigkeitsmodul-Rahmen

Differenzielle Privatsphäre

  • Klassische Analyse: Annahme, dass alle Iterationen veröffentlicht werden
  • Letzte Iteration: Chourasia et al. (2021), Ye und Shokri (2022) u.a. untersuchen Privatsphäre der letzten Iteration

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Erweiterung der PABI-Technik über nicht-expansive Iterationen hinaus
  2. Etablierung enger Grenzen für mehrere wichtige Potentialfunktionsklassen
  3. Beweis der kritischen Rolle des Stetigkeitsmoduls in Datenschutz- und Stichprobenanalyse

Einschränkungen

  1. Nicht-glatter Fall: Im Lipschitz-Fall können keine nicht-trivialen Datenschutzverstärkungen erhalten werden
  2. Schrittweiten-Einschränkungen: Bestimmte Ergebnisse erfordern strengere Schrittweiten-Beschränkungen
  3. Spezifische Form: Hauptergebnisse sind auf Stetigkeitsmodule der Form φ(δ) = √(cδ² + h) beschränkt

Zukünftige Richtungen

  1. Erweiterung auf allgemeinere Stetigkeitsmodul-Formen
  2. Verbesserung von Datenschutzgrenzen im nicht-glattem Fall
  3. Untersuchung komplexerer Einstellungen wie Sattelpunktprobleme

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Erfolgreiche Erweiterung der PABI-Technik auf allgemeinere Einstellungen mit wichtigem theoretischem Wert
  2. Mathematische Strenge: Vollständige und strenge Beweise; analytische Lösungen des Optimierungsproblems zeigen tiefe mathematische Einsichten
  3. Praktischer Wert: Ergebnisse gelten für eine breite Klasse von Potentialfunktionen, einschließlich nicht-differenzierbarer Funktionen
  4. Einheitlicher Rahmen: Bietet einen einheitlichen Analyserahmen durch Stetigkeitsmodule

Schwächen

  1. Begrenzte Anwendbarkeit: Hauptergebnisse sind auf spezifische Formen von Stetigkeitsmodulen beschränkt
  2. Fehlende empirische Validierung: Mangel an numerischen Experimenten zur Validierung der Enge der theoretischen Ergebnisse
  3. Nicht-glatte Herausforderungen: Datenschutzergebnisse im nicht-glattem Fall sind relativ pessimistisch

Auswirkungen

  1. Theoretischer Beitrag: Bietet neue theoretische Werkzeuge für Stichproben- und Datenschutzanalyse
  2. Methodologischer Wert: Die Stetigkeitsmodul-Methode könnte andere verwandte Forschungen inspirieren
  3. Praktische Anleitung: Bietet theoretische Anleitung für praktisches Algorithmus-Design

Anwendungsszenarien

  1. Bayessche Inferenz: Posterior-Stichprobenziehung mit nicht-glattem Prior
  2. Differenzielle Privatsphäre: Maschinenlern-Anwendungen, die präzise Datenschutzgarantien benötigen
  3. Optimierung: Stochastische Algorithmus-Analyse für nicht-glatte konvexe Optimierungsprobleme

Referenzen

  • Altschuler, J. und Talwar, K. (2022, 2023). Privacy amplification by iteration
  • Feldman, V. et al. (2018). Privacy amplification by iteration
  • Dalalyan, A. (2017). Langevin Monte Carlo analysis
  • Bubeck, S. et al. (2018). Projected Langevin Monte Carlo

Diese Arbeit leistet wichtige Beiträge im Bereich des theoretischen maschinellen Lernens und der differenziellen Privatsphäre. Durch die innovative Verwendung von Stetigkeitsmodulen erweitert sie erfolgreich die Anwendbarkeit der PABI-Technik und bietet neue theoretische Werkzeuge für die Analyse von nicht-glattem Optimierungs- und Datenschutzschutz-Algorithmen.