2025-11-11T21:07:14.953280

Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

Qiao, Maros

We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.

academic

Sparse Polyak: उच्च-आयामी M-अनुमान के लिए एक अनुकूली चरण आकार नियम

मूल जानकारी

पेपर ID: 2509.09802
शीर्षक: Sparse Polyak: उच्च-आयामी M-अनुमान के लिए एक अनुकूली चरण आकार नियम
लेखक: Tianqi Qiao (टेक्सास A&M विश्वविद्यालय), Marie Maros (टेक्सास A&M विश्वविद्यालय)
वर्गीकरण: math.OC cs.LG stat.ML
प्रकाशन समय/सम्मेलन: तंत्रिका सूचना प्रसंस्करण प्रणाली पर 39वां सम्मेलन (NeurIPS 2025)
पेपर लिंक: https://arxiv.org/abs/2509.09802

सारांश

यह पेपर Sparse Polyak प्रस्तावित करता है और अध्ययन करता है, जो Polyak अनुकूली चरण आकार का एक प्रकार है, जो विशेष रूप से उच्च-आयामी सांख्यिकीय अनुमान समस्याओं को हल करने के लिए डिज़ाइन किया गया है, जहां समस्या आयाम नमूना आकार की तुलना में बहुत तेजी से बढ़ता है। इस सेटिंग में, मानक Polyak चरण आकार खराब प्रदर्शन करता है, और इष्टतम सांख्यिकीय सटीकता तक पहुंचने के लिए अधिक से अधिक पुनरावृत्तियों की आवश्यकता होती है - भले ही समस्या अच्छी तरह से स्थित हो और/या प्राप्त करने योग्य सटीकता स्वयं समस्या के पैमाने के साथ खराब न हो। यह पेपर इस सीमा को चिकनाई माप के तरीके में विसंगति के लिए जिम्मेदार ठहराता है: उच्च आयामों में, Lipschitz चिकनाई स्थिरांक का अनुमान लगाना अब प्रभावी नहीं है। इसके बजाय, समस्या से संबंधित विशिष्ट दिशाओं तक सीमित चिकनाई का अनुमान लगाना अधिक उपयुक्त है (प्रतिबंधित Lipschitz चिकनाई स्थिरांक)। Sparse Polyak प्रतिबंधित Lipschitz चिकनाई स्थिरांक का अनुमान लगाने के लिए चरण आकार को संशोधित करके इस समस्या को दूर करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह पेपर उच्च-आयामी सांख्यिकीय अनुमान समस्या का अध्ययन करता है:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

जहां आयाम d नमूना आकार n के सापेक्ष बहुत तेजी से बढ़ता है, अर्थात d/n → ∞।

मुख्य समस्याएं

उच्च-आयामी चुनौतियां: उच्च-आयामी सेटिंग में, पारंपरिक Lipschitz चिकनाई स्थिरांक अनुमान विफल हो जाता है, जिससे चरण आकार का चयन अत्यधिक रूढ़िवादी हो जाता है
प्रदर्शन में गिरावट: मानक Polyak चरण आकार समस्या आयाम बढ़ने के साथ महत्वपूर्ण रूप से खराब हो जाता है, भले ही समस्या की स्थिति संख्या समान रहे
दर अपरिवर्तनीयता की कमी: मौजूदा विधियां निश्चित चरण आकार IHT के समान अभिसरण गारंटी बनाए रखने में विफल हैं

अनुसंधान प्रेरणा

पुनरावृत्तीय कठोर थ्रेसहोल्डिंग (IHT) एल्गोरिदम उच्च-आयामी विरल पुनर्प्राप्ति में उत्कृष्ट प्रदर्शन करता है, लेकिन प्रतिबंधित Lipschitz चिकनाई (RSS) स्थिरांक L̄ को जानने की आवश्यकता है
मौजूदा अनुकूली चरण आकार विधियां उच्च-आयामी सेटिंग में सैद्धांतिक गारंटी और व्यावहारिक प्रदर्शन की कमी करती हैं
एक ऐसी विधि की आवश्यकता है जो चरण आकार को अनुकूलित रूप से समायोजित कर सके और दर अपरिवर्तनीयता बनाए रखे

मुख्य योगदान

पहला उच्च-आयामी अनुकूली चरण आकार नियम: उच्च-आयामी सेटिंग में अच्छा प्रदर्शन करने वाला और दर अपरिवर्तनीयता बनाए रखने वाला पहला अनुकूली चरण आकार नियम प्रस्तावित किया
सैद्धांतिक नवाचार: उच्च आयामों में चिकनाई माप की मौलिक समस्या की पहचान की, वैश्विक स्थिरांक के बजाय प्रतिबंधित Lipschitz चिकनाई स्थिरांक का अनुमान लगाने का प्रस्ताव दिया
अभिसरण गारंटी: ज्ञात सर्वोत्तम निश्चित चरण आकार के समान रैखिक अभिसरण दर स्थापित की, इष्टतम सांख्यिकीय सटीकता प्राप्त की
व्यापक प्रयोज्यता: कई सांख्यिकीय मॉडल (लॉजिस्टिक प्रतिगमन, रैखिक प्रतिगमन, मैट्रिक्स प्रतिगमन आदि) के लिए सैद्धांतिक गारंटी प्रदान की
समर्थन पुनर्प्राप्ति: संकेत-से-शोर अनुपात शर्तों के तहत समर्थन पुनर्प्राप्ति गारंटी प्रदान की

विधि विवरण

कार्य परिभाषा

बाधित अनुकूलन समस्या पर विचार करें:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

जहां:

θ एक d-आयामी पैरामीटर वेक्टर है, अधिकतम s गैर-शून्य तत्वों तक सीमित है
f(θ) अनुभवजन्य जोखिम फ़ंक्शन है
लक्ष्य उच्च-आयामी सेटिंग (d/n → ∞) में कुशलतापूर्वक समाधान करना है

मुख्य एल्गोरिदम: Sparse Polyak चरण आकार

एल्गोरिदम 1: Sparse Polyak चरण आकार के साथ IHT

इनपुट: फ़ंक्शन f, लक्ष्य फ़ंक्शन मान f̂, विरल पैरामीटर s, पुनरावृत्ति संख्या T
प्रारंभिकीकरण: θ_0 ∈ R^d, ||θ_0||_0 ≤ s
for t = 0 to T-1 do:
    चरण आकार की गणना करें: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
    अपडेट करें: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
end for

मुख्य नवाचार बिंदु

संशोधित चरण आकार सूत्र:
- पारंपरिक Polyak: γ_t = (f(θ_t) - f̂) / ||∇f(θ_t)||²
- Sparse Polyak: γ_t = (f(θ_t) - f̂) / ||HT_s(∇f(θ_t))||²
कठोर थ्रेसहोल्डिंग ऑपरेटर: HT_s s सबसे बड़े परिमाण घटकों को बनाए रखता है, बाकी को शून्य पर सेट करता है
सैद्धांतिक आधार:
- प्रतिबंधित दृढ़ उत्तलता (RSC) और प्रतिबंधित चिकनाई (RSS) शर्तों का उपयोग
- L̄ = L + 3τs, μ̄ = μ - 3τs, κ̄ = L̄/μ̄

तकनीकी नवाचार बिंदु

आयाम-स्वतंत्र चरण आकार: ||∇f(θ_t)||² के बजाय ||HT_s(∇f(θ_t))||² का उपयोग करके, आयाम d से संबंधित स्केलिंग से बचा जाता है
प्रतिबंधित दिशा अनुमान: पूरे स्थान के बजाय विरल दिशाओं पर चिकनाई पर ध्यान केंद्रित करता है
दोहरी-लूप एल्गोरिदम: लक्ष्य फ़ंक्शन मान f̂ अज्ञात होने की स्थिति को संभालने के लिए एल्गोरिदम 2 प्रदान करता है

सैद्धांतिक विश्लेषण

मुख्य प्रमेय

प्रमेय 1 (मुख्य अभिसरण परिणाम): RSC और RSS मान्यताओं के तहत, जब s ≥ (240κ̄)²s* हो:

रैखिक अभिसरण: ||θ_{t+1} - θ̂||² ≤ (1 - 1/(80κ̄))||θ_t - θ̂||²
अंतिम सटीकता: O(||HT_s(∇f(θ̂))||²/μ̄²)

परिणाम 1 (समर्थन पुनर्प्राप्ति): संकेत-से-शोर अनुपात शर्त |θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄ के तहत, एल्गोरिदम समर्थन सेट को सटीक रूप से पुनः प्राप्त कर सकता है।

सांख्यिकीय मॉडल गारंटी

विरल लॉजिस्टिक प्रतिगमन (परिणाम 2):

अभिसरण दर: (1 - 1/(80κ̄))
सांख्यिकीय सटीकता: O(s log d / n)
संभाव्यता गारंटी: कम से कम 1 - e^{-c_0 n} - 2/d

मैट्रिक्स प्रतिगमन (परिणाम 3):

निम्न-रैंक मैट्रिक्स पुनर्प्राप्ति के लिए लागू
समान अभिसरण गारंटी और सांख्यिकीय सटीकता

प्रायोगिक सेटअप

संश्लेषित डेटा प्रयोग

आयाम सेटिंग: d ∈ {5000, 10000, 20000}
विरलता: s* = 300
नमूना आकार: n = ⌈α s log d⌉, α = 5
डिज़ाइन मैट्रिक्स: समय श्रृंखला संरचना, सहसंबंध पैरामीटर ω = 0.5
शोर सेटिंग: रैखिक प्रतिगमन σ² = 0.25, लॉजिस्टिक प्रतिगमन मॉडल (4) के अनुसार उत्पन्न

वास्तविक डेटा प्रयोग

रैखिक प्रतिगमन: बड़े पैमाने पर Wave Energy Farm डेटासेट (120 नमूने, 149 विशेषताएं)
लॉजिस्टिक प्रतिगमन: Molecule Musk डेटासेट (120 नमूने, 166 विशेषताएं)
विरलता: s = 20

तुलना विधियां

निश्चित चरण आकार γ = 2/(3L̄) के साथ IHT
शास्त्रीय Polyak चरण आकार
ग्रिड खोज द्वारा अनुकूलित निश्चित चरण आकार

प्रायोगिक परिणाम

मुख्य परिणाम

दर अपरिवर्तनीयता सत्यापन:
- Sparse Polyak विभिन्न आयामों d में सुसंगत अभिसरण व्यवहार बनाए रखता है
- शास्त्रीय Polyak आयाम बढ़ने के साथ प्रदर्शन में महत्वपूर्ण गिरावट दिखाता है
- जब log(d)/n स्थिर रहता है, तो पुनरावृत्ति संख्या मूलतः अपरिवर्तित रहती है
अभिसरण गति तुलना:
- निश्चित चरण आकार की तुलना में, Sparse Polyak आमतौर पर तेजी से अभिसरित होता है
- लॉजिस्टिक प्रतिगमन में लाभ अधिक स्पष्ट है (स्थानीय वक्रता अनुकूलन के कारण)
- लक्ष्य मान f̂ की पसंद सीधे प्राप्त करने योग्य सटीकता को प्रभावित करती है
वास्तविक डेटा प्रदर्शन:
- लॉजिस्टिक प्रतिगमन कार्य: Sparse Polyak > निश्चित चरण आकार > शास्त्रीय Polyak
- रैखिक प्रतिगमन कार्य: इष्टतम निश्चित चरण आकार थोड़ा बेहतर, लेकिन Sparse Polyak अभी भी शास्त्रीय Polyak से बेहतर है

मुख्य निष्कर्ष

आयाम स्केलिंग समस्या: उच्च आयामों में, ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||, सबसे खराब स्थिति में समानता होती है
चरण आकार रूढ़िवादिता: पूर्ण ग्रेडिएंट मानदंड का उपयोग अत्यधिक रूढ़िवादी चरण आकार की ओर ले जाता है, d बढ़ने के साथ बिगड़ता है
अनुकूलन लाभ: अनुकूली चरण आकार स्थानीय वक्रता जानकारी का उपयोग कर सकता है, गैर-समान वक्रता समस्याओं में बेहतर प्रदर्शन करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

विधि प्रभावशीलता: Sparse Polyak उच्च-आयामी सेटिंग में अनुकूली चरण आकार की चुनौतियों को सफलतापूर्वक हल करता है
सैद्धांतिक पूर्णता: सर्वोत्तम निश्चित चरण आकार के समान अभिसरण गारंटी प्रदान करता है
व्यावहारिक मूल्य: कई सांख्यिकीय मॉडल में अच्छा प्रदर्शन प्रदर्शित करता है
दर अपरिवर्तनीयता: समस्या के पैमाने के साथ बढ़ने पर प्रदर्शन स्थिरता प्राप्त करता है

सीमाएं

स्थिरांक कारक: चरण आकार सूत्र में कारक 1/5 विश्लेषण का उत्पाद हो सकता है, व्यावहारिक रूप से आवश्यक नहीं
प्रारंभिकीकरण आवश्यकताएं: कुछ परिणामों को विशिष्ट प्रारंभिकीकरण शर्तों की आवश्यकता है
शर्त सीमाएं: अभी भी RSC/RSS शर्तों की आवश्यकता है, हालांकि RIP शर्तों की तुलना में अधिक शिथिल
पैरामीटर चयन: लक्ष्य फ़ंक्शन मान f̂ को पहले से जानने या अनुमान लगाने की आवश्यकता है

भविष्य की दिशाएं

अन्य एल्गोरिदम में विस्तार: लेखक अनुमान लगाते हैं कि BB विधियां आदि को भी समान सुधार की आवश्यकता हो सकती है
अधिक कमजोर शर्तें: सैद्धांतिक मान्यताओं को और अधिक शिथिल करना
व्यावहारिक अनुप्रयोग: अधिक व्यावहारिक समस्याओं में विधि प्रभावशीलता को सत्यापित करना
कम्प्यूटेशनल अनुकूलन: कम्प्यूटेशनल जटिलता को कम करना, व्यावहारिकता में सुधार करना

गहन मूल्यांकन

शक्तियां

समस्या पहचान सटीक: उच्च-आयामी अनुकूली चरण आकार की मुख्य समस्या की सटीक पहचान
सैद्धांतिक योगदान महत्वपूर्ण: पहली बार उच्च-आयामी विरल समस्याओं के लिए अनुकूली चरण आकार की सैद्धांतिक गारंटी प्रदान करता है
विधि सरल और प्रभावी: संशोधन सरल लेकिन प्रभाव महत्वपूर्ण
प्रयोग व्यापक: सैद्धांतिक सत्यापन, संश्लेषित डेटा और वास्तविक डेटा प्रयोग शामिल
लेखन स्पष्ट: तार्किक संरचना स्पष्ट, तकनीकी विवरण पूर्ण

कमियां

शर्तें काफी मजबूत: s ≥ (240κ̄)²s* की आवश्यकता कुछ अनुप्रयोगों में अत्यधिक कठोर हो सकती है
स्थिरांक विश्लेषण: कुछ स्थिरांक पर्याप्त रूप से तंग नहीं हो सकते, व्यावहारिक प्रदर्शन को प्रभावित करते हैं
प्रयोज्यता सीमा: मुख्य रूप से विरल समस्याओं के लिए, अन्य संरचित समस्याओं में विस्तार की संभावना अज्ञात
कम्प्यूटेशनल ओवरहेड: प्रत्येक पुनरावृत्ति में कठोर थ्रेसहोल्डिंग ऑपरेशन की गणना की आवश्यकता, कम्प्यूटेशनल लागत बढ़ाता है

प्रभाव

सैद्धांतिक मूल्य: उच्च-आयामी अनुकूलन सिद्धांत में महत्वपूर्ण योगदान
व्यावहारिक महत्व: मशीन लर्निंग में विरल समस्याओं के लिए नया उपकरण प्रदान करता है
प्रेरणादायक: उच्च-आयामी सेटिंग में अन्य अनुकूली विधियों में सुधार के लिए विचार प्रदान करता है
पुनरुत्पादनीयता: सैद्धांतिक विश्लेषण पूर्ण, एल्गोरिदम विवरण स्पष्ट, कार्यान्वयन में आसान

लागू परिदृश्य

उच्च-आयामी विरल प्रतिगमन: विशेषता चयन, जीनोमिक्स डेटा विश्लेषण
संपीड़ित संवेदन: संकेत पुनर्निर्माण, छवि प्रसंस्करण
मशीन लर्निंग: गहन शिक्षा में विरलता, तंत्रिका नेटवर्क प्रूनिंग
सांख्यिकीय शिक्षा: उच्च-आयामी सांख्यिकीय अनुमान, चर चयन

संदर्भ

मुख्य संदर्भों में शामिल हैं:

Jain et al. (2014) - IHT सैद्धांतिक आधार
Agarwal et al. (2012) - RSC/RSS शर्तें
Polyak (1969) - मूल Polyak चरण आकार
Loh & Wainwright (2015) - उच्च-आयामी सांख्यिकी सिद्धांत
Malitsky & Mishchenko (2020) - आधुनिक अनुकूली विधियां

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला सैद्धांतिक पेपर है जो उच्च-आयामी अनुकूलन में एक महत्वपूर्ण समस्या के लिए एक नवीन समाधान प्रस्तावित करता है। सैद्धांतिक विश्लेषण कठोर है, प्रायोगिक सत्यापन व्यापक है, और संबंधित क्षेत्र के लिए महत्वपूर्ण योगदान मूल्य है। हालांकि कुछ तकनीकी सीमाएं हैं, लेकिन समग्र रूप से यह क्षेत्र में एक महत्वपूर्ण प्रगति है।

Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

Sparse Polyak: उच्च-आयामी M-अनुमान के लिए एक अनुकूली चरण आकार नियम

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्याएं

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मुख्य एल्गोरिदम: Sparse Polyak चरण आकार

मुख्य नवाचार बिंदु

तकनीकी नवाचार बिंदु

सैद्धांतिक विश्लेषण

मुख्य प्रमेय

सांख्यिकीय मॉडल गारंटी

प्रायोगिक सेटअप

संश्लेषित डेटा प्रयोग

वास्तविक डेटा प्रयोग

तुलना विधियां

प्रायोगिक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

संबंधित कार्य

विरल पुनर्प्राप्ति एल्गोरिदम

अनुकूली चरण आकार विधियां

उच्च-आयामी सांख्यिकी

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ