2025-11-22T06:58:15.988590

Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning

Bellec, Shen
This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatβ(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatβ$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatβ(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.
academic

नियमितीकृत M-अनुमानकों के व्युत्पन्न और अवशिष्ट वितरण और अनुकूली ट्यूनिंग के अनुप्रयोग

मूल जानकारी

  • पेपर ID: 2107.05143
  • शीर्षक: नियमितीकृत M-अनुमानकों के व्युत्पन्न और अवशिष्ट वितरण और अनुकूली ट्यूनिंग के अनुप्रयोग
  • लेखक: Pierre C. Bellec (Rutgers विश्वविद्यालय), Yiwei Shen (Rutgers विश्वविद्यालय)
  • वर्गीकरण: math.ST stat.ML stat.TH
  • प्रकाशन सम्मेलन: Proceedings of Machine Learning Research vol 178:1–36, 2022
  • पेपर लिंक: https://arxiv.org/abs/2107.05143

सारांश

यह पेपर गॉसीय डिज़ाइन मैट्रिक्स और मनमाने शोर वितरण वाले रैखिक मॉडल में, ग्रेडिएंट लिपशिट्ज़ हानि फलन और उत्तल दंड पद वाले M-अनुमानकों का अध्ययन करता है। मुख्य योगदान में शामिल हैं: (1) नियमितीकृत M-अनुमानक β^(y,X)\hat{\beta}(y,X) के yy और XX के संबंध में व्युत्पन्न के लिए सामान्य सूत्र प्रदान करना, जो सभी उत्तल नियमितीकृत M-अनुमानकों द्वारा साझा किए जाने वाले सरल अवकलनीय संरचना को प्रकट करता है; (2) इन व्युत्पन्नों का उपयोग करके, आयाम और नमूना आकार समान क्रम के मध्यम उच्च-आयामी शासन में अवशिष्ट ri=yixiβ^r_i = y_i-x_i^\top\hat{\beta} के वितरण को चिन्हित करना; (3) अवशिष्ट वितरण के आधार पर नियमितीकृत M-अनुमानक के ट्यूनिंग पैरामीटर को चुनने के लिए एक नई अनुकूली कसौटी प्रस्तावित करना, जो नमूना-बाहर त्रुटि को अनुमानित कर सकती है और शोर वितरण या डिज़ाइन सहप्रसरण को जानने की आवश्यकता नहीं है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

उच्च-आयामी सांख्यिकी में, M-अनुमानक विषम मान और भारी-पूंछ वाले शोर को संभालने के लिए महत्वपूर्ण उपकरण हैं। विशिष्ट M-अनुमानक का रूप है: β^(y,X)=argminbRp1ni=1nρ(yixib)+g(b)\hat{\beta}(y,X) = \arg\min_{b\in\mathbb{R}^p} \frac{1}{n}\sum_{i=1}^n \rho(y_i - x_i^\top b) + g(b)

जहां ρ\rho उत्तल हानि फलन है (जैसे Huber हानि), gg उत्तल दंड पद है (जैसे Elastic-Net)।

अनुसंधान प्रेरणा

  1. पैरामीटर ट्यूनिंग की कठिनाई: मौजूदा ट्यूनिंग विधियों को आमतौर पर शोर वितरण या डिज़ाइन सहप्रसरण मैट्रिक्स को जानने की आवश्यकता होती है, जो व्यावहारिक अनुप्रयोगों में अक्सर उपलब्ध नहीं होते हैं।
  2. सैद्धांतिक समझ की कमी: सामान्य M-अनुमानकों के लिए, उनकी अवकलनीय संरचना और अवशिष्ट वितरण की सैद्धांतिक समझ अभी भी पर्याप्त गहरी नहीं है।
  3. व्यावहारिक आवश्यकता: एक पूरी तरह से अनुकूली ट्यूनिंग कसौटी की आवश्यकता है जो अज्ञात पैरामीटर पर निर्भर न हो और इष्टतम हानि-दंड जोड़ी को प्रभावी ढंग से चुन सके।

मौजूदा विधियों की सीमाएं

  • अधिकांश मौजूदा कार्य वर्गीय हानि तक सीमित हैं
  • डिज़ाइन सहप्रसरण मैट्रिक्स Σ\Sigma को जानने की आवश्यकता है
  • गैर-चिकने दंड फलन के लिए सैद्धांतिक गारंटी की कमी है

मुख्य योगदान

  1. व्युत्पन्न सूत्र की एकीकृत रूपरेखा: किसी भी उत्तल नियमितीकृत M-अनुमानक के लिए (y,X)(y,X) के संबंध में व्युत्पन्न के लिए सामान्य सूत्र प्रदान करता है, एकीकृत अवकलनीय संरचना को प्रकट करता है।
  2. अवशिष्ट वितरण का स्टोकेस्टिक प्रतिनिधित्व: मध्यम उच्च-आयामी शासन में, व्यक्तिगत अवशिष्ट का सटीक स्टोकेस्टिक प्रतिनिधित्व और स्पर्शोन्मुख सामान्यता परिणाम प्रदान करता है।
  3. अनुकूली ट्यूनिंग कसौटी: पूरी तरह से अनुकूली पैरामीटर चयन कसौटी प्रस्तावित करता है जिसे शोर वितरण या डिज़ाइन सहप्रसरण को जानने की आवश्यकता नहीं है।
  4. प्रभावी स्वतंत्रता की डिग्री का नया संबंध: M-अनुमानक व्युत्पन्न और प्रभावी स्वतंत्रता की डिग्री के बीच नया संबंध स्थापित करता है।

विधि विवरण

समस्या सेटिंग

रैखिक मॉडल y=Xβ+εy = X\beta^* + \varepsilon पर विचार करें, जहां:

  • XRn×pX \in \mathbb{R}^{n \times p} की पंक्ति वेक्टर N(0,Σ)N(0,\Sigma) से स्वतंत्र और समान रूप से वितरित हैं
  • ε\varepsilon XX से स्वतंत्र है, सतत वितरण के साथ
  • आयाम pp और नमूना आकार nn समान क्रम के हैं

मुख्य तकनीकी रूपरेखा

1. व्युत्पन्न सूत्र (प्रमेय 1)

लगभग सभी (y,X)(y,X) के लिए, मैट्रिक्स A^Rp×p\hat{A} \in \mathbb{R}^{p \times p} मौजूद है जैसे:

yiβ^(y,X)=A^Xeiψ(ri)\frac{\partial}{\partial y_i}\hat{\beta}(y,X) = \hat{A}X^\top e_i \psi'(r_i)

xijβ^(y,X)=A^ejψ(ri)A^Xeiψ(ri)β^j\frac{\partial}{\partial x_{ij}}\hat{\beta}(y,X) = \hat{A}e_j\psi(r_i) - \hat{A}X^\top e_i \psi'(r_i)\hat{\beta}_j

जहां ri=yixiβ^r_i = y_i - x_i^\top\hat{\beta}, ψ=ρ\psi = \rho', Σ1/2A^Σ1/2op(nμ)1\|\Sigma^{1/2}\hat{A}\Sigma^{1/2}\|_{op} \leq (n\mu)^{-1}

2. अवशिष्ट वितरण (प्रमेय 4)

प्रत्येक i=1,,ni = 1,\ldots,n के लिए, ZiN(0,1)Z_i \sim N(0,1) मौजूद है जो εi\varepsilon_i से स्वतंत्र है जैसे:

ri+tr[ΣA^]ψ(ri)(εi+Σ1/2(β^β)Zi)OP(n1/4)(त्रुटि पद)\left|r_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) - (\varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i)\right| \leq O_P(n^{-1/4})(\text{त्रुटि पद})

यह अवशिष्ट का स्टोकेस्टिक प्रतिनिधित्व देता है: ri+tr[ΣA^]ψ(ri)εi+Σ1/2(β^β)Zir_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) \approx \varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i

3. अनुकूली ट्यूनिंग कसौटी

अवशिष्ट वितरण के आधार पर, ट्यूनिंग कसौटी प्रस्तावित करें:

Crit(ρ,g)=r+df^tr[V]ψ(r)2\text{Crit}(\rho, g) = \left\|r + \frac{\hat{df}}{\text{tr}[V]}\psi(r)\right\|^2

जहां:

  • r=yXβ^ρ,gr = y - X\hat{\beta}_{\rho,g}
  • df^=tr[X(/y)β^ρ,g]\hat{df} = \text{tr}[X(\partial/\partial y)\hat{\beta}_{\rho,g}]
  • V=diag{ψ(r)}(InX(/y)β^ρ,g)V = \text{diag}\{\psi'(r)\}(I_n - X(\partial/\partial y)\hat{\beta}_{\rho,g})

तकनीकी नवाचार बिंदु

  1. एकीकृत अवकलनीय संरचना: पहली बार सामान्य उत्तल M-अनुमानकों के लिए एकीकृत व्युत्पन्न सूत्र स्थापित करता है, गैर-चिकने दंड सहित।
  2. प्रभावी स्वतंत्रता की डिग्री का अनुमान: df^/tr[V]\hat{df}/\text{tr}[V] को tr[ΣA^]\text{tr}[\Sigma\hat{A}] के अनुमान के रूप में प्रस्तावित करता है, Σ\Sigma पर निर्भरता से बचता है।
  3. संभाव्यता उपकरणों का नवीन उपयोग: Stein सूत्र और गॉसीय समाकलन तकनीकों का कुशलतापूर्वक उपयोग करके उच्च-आयामी M-अनुमानकों को संभालता है।

प्रयोगात्मक सेटिंग

डेटा जनन प्रक्रिया

  • नमूना आकार: n=1001n = 1001, आयाम: p=1000p = 1000
  • डिज़ाइन मैट्रिक्स: XX की पंक्तियां N(0,Σ)N(0,\Sigma) से स्वतंत्र और समान रूप से वितरित हैं, जहां Σ=RR/(2p)\Sigma = R^\top R/(2p), RR Rademacher मैट्रिक्स है
  • सत्य पैरामीटर: β\beta^* के पहले 100 घटक 10/10\sqrt{10}/10 हैं, शेष 0 हैं
  • शोर: εi\varepsilon_i स्वतंत्र और समान रूप से स्वतंत्रता की डिग्री 2 के साथ t वितरण से वितरित हैं (भारी-पूंछ)

मॉडल सेटिंग

Huber-Elastic-Net अनुमानक का उपयोग करें:

  • हानि फलन: ρ(u;Λ)=Λ2H(Λ1u)\rho(u;\Lambda) = \Lambda^2 H(\Lambda^{-1}u), जहां HH Huber हानि है
  • दंड पद: g(b;λ,τ)=λb1+(τ/2)b22g(b;\lambda,\tau) = \lambda\|b\|_1 + (\tau/2)\|b\|_2^2

मूल्यांकन मेट्रिक्स

  • नमूना-बाहर त्रुटि: Σ1/2(β^β)2\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2
  • ट्यूनिंग कसौटी की अनुमान त्रुटि
  • अवशिष्ट सामान्यता परीक्षण

प्रयोगात्मक परिणाम

मुख्य परिणाम

1. ट्यूनिंग कसौटी की प्रभावशीलता

चित्र 1 (λ,τ)(\lambda,\tau) ग्रिड पर दिखाता है:

  • सत्य नमूना-बाहर त्रुटि Σ1/2(β^β)2\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2
  • ट्यूनिंग कसौटी का अनुमान r+(df^/tr[V])ψ(r)2/nε2/n\|r + (\hat{df}/\text{tr}[V])\psi(r)\|^2/n - \|\varepsilon\|^2/n
  • अनुमान त्रुटि

परिणाम दिखाते हैं कि ट्यूनिंग कसौटी नमूना-बाहर त्रुटि के सापेक्ष आकार को सटीक रूप से अनुमानित कर सकती है।

2. अवशिष्ट सामान्यता सत्यापन

चित्र 2 मानकीकृत अवशिष्ट ζ1\zeta_1 का हिस्टोग्राम और QQ प्लॉट दिखाता है, विभिन्न पैरामीटर संयोजनों के तहत मानक सामान्य वितरण के अनुरूप अच्छी तरह से, सैद्धांतिक भविष्यवाणी को सत्यापित करता है।

3. प्रभावी स्वतंत्रता की डिग्री का अनुमान

तालिका 1 tr[ΣA^]df^/tr[V]|\text{tr}[\Sigma\hat{A}] - \hat{df}/\text{tr}[V]| के मान दिखाती है जो बहुत छोटे हैं (लगभग 0.002), यह पुष्टि करते हुए कि df^/tr[V]\hat{df}/\text{tr}[V] tr[ΣA^]\text{tr}[\Sigma\hat{A}] का अच्छा अनुमान है।

सैद्धांतिक गारंटी

  • प्रमेय 7-8: ट्यूनिंग कसौटी के आधार पर चुने गए अनुमानक उच्च संभावना के साथ इष्टतम नमूना-बाहर त्रुटि प्राप्त करते हैं
  • प्रमेय 9: E[tr[ΣA^]tr[V]/ndf^/n]C(γ,μ)n1/2E[|\text{tr}[\Sigma\hat{A}]\text{tr}[V]/n - \hat{df}/n|] \leq C(γ,μ)n^{-1/2}
  • प्रमेय 6: Σ1/2(β^β)2+ε2/n=(1+OP(n1/2))r+tr[ΣA^]ψ(r)2/n\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2 + \|\varepsilon\|^2/n = (1+O_P(n^{-1/2}))\|r + \text{tr}[\Sigma\hat{A}]\psi(r)\|^2/n

संबंधित कार्य

उच्च-आयामी M-अनुमानक सिद्धांत

यह पेपर निम्नलिखित कार्य के आधार पर बनाया गया है:

  • Bayati & Montanari (2012): LASSO का जोखिम विश्लेषण
  • El Karoui et al. (2013): अदंडित M-अनुमानकों का अनुसंधान
  • Thrampoulidis et al. (2018): सामान्य हानि-दंड जोड़ी का सटीक त्रुटि विश्लेषण

पैरामीटर ट्यूनिंग विधियां

मौजूदा विधियों के साथ तुलना:

  • ALO कसौटी (Rad et al., 2020): दूसरे क्रम की निरंतर अवकलनीयता की धारणा की आवश्यकता है
  • Σ पर आधारित कसौटी (Bellec, 2020): डिज़ाइन सहप्रसरण को जानने की आवश्यकता है
  • यह विधि: पूरी तरह से अनुकूली, गैर-चिकने फलन पर लागू होती है

तकनीकी योगदान की विशिष्टता

यह पेपर पहली बार अवलोकनीय मात्रा (केवल डेटा पर निर्भर) का उपयोग M-अनुमानक व्यवहार का वर्णन करने के लिए करता है, न कि अज्ञात पूर्व वितरण या सहप्रसरण मैट्रिक्स पर निर्भर होकर।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. एकीकृत सैद्धांतिक रूपरेखा: उत्तल नियमितीकृत M-अनुमानकों के लिए एकीकृत अवकलनीयता सिद्धांत स्थापित करता है।
  2. व्यावहारिक ट्यूनिंग उपकरण: पूर्व ज्ञान की आवश्यकता के बिना अनुकूली पैरामीटर चयन विधि प्रदान करता है।
  3. सैद्धांतिक गारंटी: उचित धारणाओं के तहत विधि की प्रभावशीलता साबित करता है।

सीमाएं

  1. गॉसीय डिज़ाइन धारणा: मुख्य सैद्धांतिक परिणामों को गॉसीय डिज़ाइन मैट्रिक्स की आवश्यकता है, हालांकि सिमुलेशन Rademacher डिज़ाइन के लिए भी प्रभावी दिखाते हैं।
  2. मजबूत उत्तलता की आवश्यकता: कुछ परिणामों को दंड पद की मजबूत उत्तलता की आवश्यकता है, हालांकि अनुभाग 7 शिथिलीकरण विधि प्रदान करता है।
  3. कम्प्यूटेशनल जटिलता: कुछ गैर-चिकने दंड के लिए, मैट्रिक्स A^\hat{A} का कोई बंद-रूप अभिव्यक्ति नहीं है।

भविष्य की दिशाएं

  1. गैर-गॉसीय डिज़ाइन तक विस्तार
  2. अधिक सामान्य हानि फलन वर्गों को संभालना
  3. कम्प्यूटेशनल रूप से कुशल कार्यान्वयन एल्गोरिदम विकसित करना

गहन मूल्यांकन

शक्तियां

  1. महत्वपूर्ण सैद्धांतिक योगदान: पहली बार सामान्य M-अनुमानकों के लिए एकीकृत व्युत्पन्न सिद्धांत प्रदान करता है, महत्वपूर्ण सैद्धांतिक अंतराल को भरता है।
  2. उच्च व्यावहारिक मूल्य: प्रस्तावित ट्यूनिंग कसौटी पूरी तरह से अनुकूली है, व्यावहारिक अनुप्रयोगों में महत्वपूर्ण मूल्य है।
  3. मजबूत तकनीकी नवाचार: उत्तल विश्लेषण, यादृच्छिक मैट्रिक्स सिद्धांत और Stein विधि को कुशलतापूर्वक जोड़ता है।
  4. पर्याप्त प्रयोगात्मक सत्यापन: विभिन्न सेटिंग्स के माध्यम से सैद्धांतिक भविष्यवाणियों की सटीकता को सत्यापित करता है।

कमियां

  1. प्रतिबंधक धारणाएं: गॉसीय डिज़ाइन धारणा विधि की सार्वभौमिकता को सीमित करती है।
  2. कम्प्यूटेशनल विचार अपर्याप्त: व्यावहारिक कम्प्यूटेशन में संख्यात्मक स्थिरता और दक्षता पर चर्चा कम है।
  3. अधूरी तुलना: अन्य अनुकूली विधियों के साथ अनुभवजन्य तुलना सीमित है।

प्रभाव

  1. सैद्धांतिक प्रभाव: उच्च-आयामी M-अनुमानक सिद्धांत के लिए नए विश्लेषण उपकरण प्रदान करता है।
  2. व्यावहारिक मूल्य: मजबूत प्रतिगमन में पैरामीटर चयन के लिए व्यावहारिक विधि प्रदान करता है।
  3. पद्धतिगत योगदान: दिखाता है कि कैसे उच्च-आयामी संभाव्यता को सांख्यिकीय अनुमान के साथ जोड़ा जाए।

लागू परिदृश्य

  • उच्च-आयामी मजबूत प्रतिगमन समस्याएं
  • विषम मान या भारी-पूंछ वाले शोर वाले डेटा विश्लेषण
  • मजबूती की आवश्यकता वाले मशीन लर्निंग अनुप्रयोगों में अनुकूली पैरामीटर चयन
  • वित्त, जैव सूचना विज्ञान आदि जहां मजबूती की आवश्यकता अधिक है

संदर्भ

मुख्य संदर्भ में शामिल हैं:

  • Bayati, M. and Montanari, A. (2012). गॉसीय मैट्रिक्स के लिए lasso जोखिम।
  • El Karoui, N. et al. (2013). उच्च-आयामी भविष्यवाणीकारों के साथ मजबूत प्रतिगमन पर।
  • Thrampoulidis, C. et al. (2018). उच्च आयामों में नियमितीकृत m-अनुमानकों की सटीक त्रुटि विश्लेषण।
  • Bellec, P.C. (2020). उत्तल दंड के साथ मजबूत m-अनुमानकों के लिए नमूना-बाहर त्रुटि अनुमान।