2025-11-17T13:58:12.673309

Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity

Bravo, Flores-Mella, GuzmÃ¡n

We study the mixing time of the projected Langevin algorithm (LA) and the privacy curve of noisy Stochastic Gradient Descent (SGD), beyond nonexpansive iterations. Specifically, we derive new mixing time bounds for the projected LA which are, in some important cases, dimension-free and poly-logarithmic on the accuracy, closely matching the existing results in the smooth convex case. Additionally, we establish new upper bounds for the privacy curve of the subsampled noisy SGD algorithm. These bounds show a crucial dependency on the regularity of gradients, and are useful for a wide range of convex losses beyond the smooth case. Our analysis relies on a suitable extension of the Privacy Amplification by Iteration (PABI) framework (Feldman et al., 2018; Altschuler and Talwar, 2022, 2023) to noisy iterations whose gradient map is not necessarily nonexpansive. This extension is achieved by designing an optimization problem which accounts for the best possible RÃ©nyi divergence bound obtained by an application of PABI, where the tractability of the problem is crucially related to the modulus of continuity of the associated gradient mapping. We show that, in several interesting cases -- namely the nonsmooth convex, weakly smooth and (strongly) dissipative -- such optimization problem can be solved exactly and explicitly, yielding the tightest possible PABI-based bounds.

academic

أوقات الخلط وتحليل الخصوصية لخوارزمية لانجفين المسقطة تحت معيار الاستمرارية

المعلومات الأساسية

معرّف الورقة: 2501.04134
العنوان: Mixing Times and Privacy Analysis for the Projected Langevin Algorithm under a Modulus of Continuity
المؤلفون: Mario Bravo, Juan Pablo Flores-Mella, Cristóbal Guzmán
التصنيفات: stat.ML cs.LG math.OC math.ST stat.TH
وقت النشر: يناير 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2501.04134

الملخص

تدرس هذه الورقة أوقات الخلط لخوارزمية لانجفين المسقطة وحدود الخصوصية لنزول التدرج العشوائي المشوب بالضوضاء (SGD)، متجاوزة نطاق التكرارات غير التوسعية. بشكل محدد، يشتق المؤلفون حدود خلط جديدة لخوارزمية لانجفين المسقطة، وفي حالات مهمة معينة، تكون هذه الحدود خالية من الأبعاد وتتمتع بتعقيد لوغاريتمي متعدد في الدقة، مما يتطابق بشكل وثيق مع النتائج الموجودة في حالة الدوال المحدبة الملساء. علاوة على ذلك، تؤسس الورقة حدود عليا جديدة لمنحنيات الخصوصية لخوارزميات نزول التدرج العشوائي ذات العينات الجزئية. تُظهر هذه الحدود اعتماداً حرجاً على انتظامية التدرج، وهي مفيدة لفئة واسعة من دوال الخسارة المحدبة خارج الحالة الملساء.

خلفية البحث والدافع

خلفية المشكلة

أهمية مشكلة العينات: أخذ عينات من التوزيعات اللوغاريتمية المقعرة π ∝ e^(-f) هي مشكلة خوارزمية أساسية، وتشكل لبنة بناء أساسية لمشاكل تقدير الحجم والتحسين والإحصائيات البايزية وتعلم الآلة والخصوصية التفاضلية.
خوارزمية لانجفين: تقترب خوارزمية لانجفين من محاكاة التوزيع المستهدف من خلال تقطيع انتشار لانجفين:
```
dL_t = -∇f(L_t)dt + √2dW_t
```
بعد التقطيع، نحصل على سلسلة ماركوف:
```
X_{t+1} = Π_X[X_t - η∇f(X_t) + √(2η)ξ_t]
```
قيود الطرق الموجودة:
- تركز معظم الأبحاث على إعدادات الدوال المحدبة القوية الملساء
- البحث حول الدوال المحدبة غير الملساء أقل نسبياً
- تقتصر تقنية PABI (تضخيم الخصوصية بالتكرار) بشكل أساسي على التكرارات غير التوسعية

دافع البحث

تهدف هذه الورقة إلى توسيع تقنية PABI إلى ما وراء التكرارات غير التوسعية، من خلال استخدام معيار الاستمرارية (modulus of continuity) لتحديد انتظامية الدوال الأساسية، وبالتالي التعامل مع فئة أوسع من دوال الجهد بما فيها الدوال غير القابلة للاشتقاق.

المساهمات الأساسية

توسيع إطار عمل PABI: توسيع تقنية PABI إلى الدوال العامة ذات معيار الاستمرارية، وحتى يمكن التعامل مع الدوال غير المستمرة.
تصميم مشكلة التحسين: تصميم مشكلة تحسين للحصول على أفضل حدود لتباعد رينيي لتطبيق PABI، وترتبط قابلية معالجة هذه المشكلة ارتباطاً وثيقاً بمعيار الاستمرارية لخريطة التدرج ذات الصلة.
الحل الصريح: إثبات أنه عندما يكون معيار الاستمرارية من الشكل φ(δ) = √(cδ² + h)، يمكن حل مشكلة التحسين بشكل صريح وتحليلي.
حدود وقت الخلط: إنشاء حدود خلط جديدة للحالات المحدبة و(p,M)-الضعيفة الملساء، وفي بعض الحالات تكون خالية من الأبعاد وتتمتع بتعقيد لوغاريتمي متعدد في الدقة.
تحليل منحنيات الخصوصية: إنشاء حدود عليا جديدة لمنحنيات الخصوصية لنزول التدرج العشوائي المشوب بالضوضاء، مما يُظهر اعتماداً حرجاً على انتظامية التدرج.

شرح الطريقة

تعريف المهمة

دراسة التكرارات المشوبة بالضوضاء المسقطة:

X_{t+1} = Π_X[Φ_t(X_t) + ξ_t], ξ_t ~ N(0, σ²_t I_{d×d})

حيث Φ_t لديها معيار استمرارية φ_t.

إطار عمل معيار الاستمرارية

التعريف

بالنسبة للدالة Φ: X ⊆ ℝ^d → ℝ^d، الدالة غير المتناقصة φ: ℝ₊ → ℝ₊ هي معيار الاستمرارية لـ Φ، إذا كانت:

‖Φ(x) - Φ(y)‖ ≤ φ(‖x - y‖) ∀x, y ∈ X

الحالات المهمة

ليبشيتز المحدبة: φ(δ) = √(δ² + (2ηL)²)
(p,M)-الضعيفة الملساء المحدبة: φ(δ) = √(δ² + (2η^(1/(1-p))√((1-p)/(1+p))(M/2)^(1/(1-p)))²)
التبديد القوي: φ(δ) = √((1-2ηκ+η²β²)δ² + 2ηλ)

توسيع PABI

اللمة الأساسية

اللمة 3.2: لتكن X ⊆ ℝ^d مجموعة مغلقة محدبة، و Φ لديها معيار استمرارية φ. بالنسبة للمتغيرات العشوائية X, X' والضوضاء الغاوسية ξ ~ N(0, σ²I)، لتكن Y = Π_XΦ(X) + ξ, Y' = Π_XΦ(X') + ξ، فإنه لأي 0 < a ≤ φ(δ):

R_α^(φ(δ)-a)(Y‖Y') ≤ R_α^(δ)(X‖X') + αa²/(2σ²)

مشكلة التحسين المزاحة

للحصول على أفضل حدود PABI، نحتاج إلى حل مشكلة التحسين المزاحة:

min_{u∈R} E(u) := Σ_{t=1}^T (φ_{t-1}(u_{t-1}) - u_t)²/σ²_{t-1}

النتائج النظرية الرئيسية

النظرية 3.4 (النتيجة الرئيسية)

لتكن φ_t(δ) = √(c_tδ² + h_t)، فإنه بالنسبة للتكرارات المشوبة بالضوضاء المسقطة:

R_α(X_T‖X'_T) ≤ α/2 [Π_{k=0}^{T-1}c_k D² / Σ_{j=0}^{T-1}σ²_j Π_{l=j+1}^{T-1}c_l + Σ_{t=0}^{T-1} h_t Π_{k=t+1}^{T-1}c_k / Σ_{j=t}^{T-1}σ²_j Π_{l=j+1}^{T-1}c_l]

إعداد التجارب

إطار التحليل النظري

هذه الورقة عمل نظري بشكل أساسي، تؤسس الحدود من خلال إثبات رياضي صارم بدلاً من التجارب التجريبية. يتضمن التحليل:

تحليل وقت الخلط: استخدام مسافة التباين الكلي لتقييم سرعة التقارب
تحليل الخصوصية: استخدام إطار عمل الخصوصية التفاضلية لرينيي
تحليل التحسين: إثبات وجود الحل الأمثل وتفرده لمشكلة التحسين المزاحة

مقاييس التقييم

وقت الخلط: T_{mix,TV}(ε) = min{t ∈ ℕ: d(t) ≤ ε}
تباعد رينيي: R_α(μ‖ν)
مسافة التباين الكلي: ‖μ - ν‖_

نتائج التجارب

حدود وقت الخلط

النظرية 4.2 (الحالة الضعيفة الملساء)

بالنسبة للدوال المحدبة و(p,M)-الضعيفة الملساء، إذا كانت 1/η ≥ Θ، فإن:

T_{mix,TV}(ε) ≤ ⌈D²/η⌉ · ⌈log₂(1/ε)⌉

حيث Θ = (M/2)^(2/(1+p))(1-p)/(1+p) max{16ln(D(M/2)^(1/(1-p))e), 27}^((1-p)/(1+p))

النظرية 4.3 (حالة التبديد القوي)

بالنسبة للدوال (λ,κ)-ذات التبديد القوي و β-الملساء، لتكن c = 1 - 2ηκ + η²β² < 1، فإن:

T_{mix,TV}(ε) = O(log_{1/c}(1 + D²(1-c)/(4η)) · (e/(1-c))^{λ/2} log₂(1/ε))

تحليل منحنيات الخصوصية

النظرية 5.2 (نزول التدرج العشوائي المشوب بالضوضاء)

بالنسبة لدوال الخسارة المحدبة و L-ليبشيتز و(p,M)-الضعيفة الملساء، يحقق نزول التدرج العشوائي المشوب بالضوضاء (α,ε)-RDP، حيث:

ε ≤ α/σ² [16L²T/n² + D²/(η²T) + 4η^(2p/(1-p))(1-p)/(1+p)(M/2)^(2/(1-p))ln(T·e)]

الاكتشافات الرئيسية

الاستقلالية عن الأبعاد: في بعض الحالات، لا تعتمد حدود وقت الخلط على البعد d
الاعتماد على الانتظامية: تعتمد حدود الخصوصية بشكل كبير على معاملات انتظامية التدرج p
الأمثلية: بالنسبة لمعايير الاستمرارية من الشكل φ(δ) = √(cδ² + h)، توجد حل أمثل فريد لمشكلة التحسين
الحالات المتدهورة: عندما p = 0 (حالة ليبشيتز)، لا يمكن الحصول على حدود خصوصية تختفي عندما n → ∞

الأعمال ذات الصلة

أبحاث خوارزمية لانجفين

حالة الملساء القوية المحدبة: أبحاث واسعة من قبل Dalalyan (2017), Durmus and Moulines (2019) وآخرين
الحالة غير الملساء: البحث نسبياً أقل، يتضمن بشكل أساسي Pereyra (2016), Chatterji et al. (2020) وآخرين

تقنية PABI

الإطار الأصلي: اقترحه Feldman et al. (2018)
التطبيقات الموسعة: طبقها Altschuler and Talwar (2022, 2023) على الحالة المحدبة الملساء
مساهمة هذه الورقة: التوسيع إلى إطار عمل معيار الاستمرارية

الخصوصية التفاضلية

التحليل الكلاسيكي: يفترض نشر جميع التكرارات
التكرار الأخير: أبحاث Chourasia et al. (2021), Ye and Shokri (2022) وآخرين حول خصوصية التكرار الأخير

الخلاصة والمناقشة

الاستنتاجات الرئيسية

توسيع ناجح لتقنية PABI إلى ما وراء التكرارات غير التوسعية
إنشاء حدود محكمة لفئات متعددة مهمة من دوال الجهد
إثبات الدور الحرج لمعيار الاستمرارية في تحليل الخصوصية والعينات

القيود

الحالة غير الملساء: لا يمكن الحصول على تضخيم خصوصية غير تافه في حالة ليبشيتز
قيود حجم الخطوة: تتطلب بعض النتائج قيود حجم خطوة أكثر صرامة
الشكل المحدد: تقتصر النتائج الرئيسية على معايير الاستمرارية من الشكل φ(δ) = √(cδ² + h)

الاتجاهات المستقبلية

التوسيع إلى أشكال أكثر عمومية لمعايير الاستمرارية
تحسين حدود الخصوصية في الحالة غير الملساء
دراسة الإعدادات الأكثر تعقيداً مثل مشاكل نقطة السرج

التقييم العميق

المزايا

الابتكار النظري: توسيع ناجح لتقنية PABI إلى إعدادات أكثر عمومية، ذات قيمة نظرية مهمة
الصرامة الرياضية: الإثباتات كاملة وصارمة، والحل التحليلي لمشكلة التحسين يُظهر رؤية رياضية عميقة
القيمة العملية: النتائج قابلة للتطبيق على فئة واسعة من دوال الجهد بما فيها الدوال غير القابلة للاشتقاق
الإطار الموحد: توفير إطار عمل موحد للتحليل من خلال معيار الاستمرارية

أوجه القصور

التطبيقات المحدودة: تقتصر النتائج الرئيسية على أشكال محددة من معايير الاستمرارية
التحقق التجريبي: غياب التجارب العددية للتحقق من محكمية النتائج النظرية
تحديات الحالة غير الملساء: نتائج الخصوصية في الحالة غير الملساء نسبياً متشائمة

التأثير

المساهمة النظرية: توفير أدوات نظرية جديدة لتحليل العينات والخصوصية
القيمة المنهجية: قد تلهم طريقة معيار الاستمرارية أبحاثاً ذات صلة أخرى
التوجيه العملي: توفير توجيه نظري لتصميم الخوارزميات العملية

السيناريوهات القابلة للتطبيق

الاستدلال البايزي: أخذ عينات من التوزيع اللاحق يتضمن أولويات غير ملساء
الخصوصية التفاضلية: تطبيقات تعلم الآلة التي تتطلب ضمانات خصوصية دقيقة
التحسين: تحليل الخوارزميات العشوائية لمشاكل التحسين المحدب غير الملساء

المراجع

Altschuler, J. and Talwar, K. (2022, 2023). Privacy amplification by iteration
Feldman, V. et al. (2018). Privacy amplification by iteration
Dalalyan, A. (2017). Langevin Monte Carlo analysis
Bubeck, S. et al. (2018). Projected Langevin Monte Carlo

تقدم هذه الورقة مساهمات مهمة في مجالات تعلم الآلة النظري والخصوصية التفاضلية، حيث توسع نطاق تقنية PABI من خلال الاستخدام المبتكر لمعيار الاستمرارية، وتوفر أدوات نظرية جديدة لتحليل الخوارزميات في التحسين غير الملساء وحماية الخصوصية.