2025-11-22T06:58:15.988590

Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning

Bellec, Shen

This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatÎ²(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatÎ²$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatÎ²(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.

academic

नियमितीकृत M-अनुमानकों के व्युत्पन्न और अवशिष्ट वितरण और अनुकूली ट्यूनिंग के अनुप्रयोग

मूल जानकारी

पेपर ID: 2107.05143
शीर्षक: नियमितीकृत M-अनुमानकों के व्युत्पन्न और अवशिष्ट वितरण और अनुकूली ट्यूनिंग के अनुप्रयोग
लेखक: Pierre C. Bellec (Rutgers विश्वविद्यालय), Yiwei Shen (Rutgers विश्वविद्यालय)
वर्गीकरण: math.ST stat.ML stat.TH
प्रकाशन सम्मेलन: Proceedings of Machine Learning Research vol 178:1–36, 2022
पेपर लिंक: https://arxiv.org/abs/2107.05143

सारांश

यह पेपर गॉसीय डिज़ाइन मैट्रिक्स और मनमाने शोर वितरण वाले रैखिक मॉडल में, ग्रेडिएंट लिपशिट्ज़ हानि फलन और उत्तल दंड पद वाले M-अनुमानकों का अध्ययन करता है। मुख्य योगदान में शामिल हैं: (1) नियमितीकृत M-अनुमानक $\hat{\beta}(y,X)$ के $y$ और $X$ के संबंध में व्युत्पन्न के लिए सामान्य सूत्र प्रदान करना, जो सभी उत्तल नियमितीकृत M-अनुमानकों द्वारा साझा किए जाने वाले सरल अवकलनीय संरचना को प्रकट करता है; (2) इन व्युत्पन्नों का उपयोग करके, आयाम और नमूना आकार समान क्रम के मध्यम उच्च-आयामी शासन में अवशिष्ट $r_i = y_i-x_i^\top\hat{\beta}$ के वितरण को चिन्हित करना; (3) अवशिष्ट वितरण के आधार पर नियमितीकृत M-अनुमानक के ट्यूनिंग पैरामीटर को चुनने के लिए एक नई अनुकूली कसौटी प्रस्तावित करना, जो नमूना-बाहर त्रुटि को अनुमानित कर सकती है और शोर वितरण या डिज़ाइन सहप्रसरण को जानने की आवश्यकता नहीं है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

उच्च-आयामी सांख्यिकी में, M-अनुमानक विषम मान और भारी-पूंछ वाले शोर को संभालने के लिए महत्वपूर्ण उपकरण हैं। विशिष्ट M-अनुमानक का रूप है: $\hat{\beta}(y,X) = \arg\min_{b\in\mathbb{R}^p} \frac{1}{n}\sum_{i=1}^n \rho(y_i - x_i^\top b) + g(b)$

जहां $\rho$ उत्तल हानि फलन है (जैसे Huber हानि), $g$ उत्तल दंड पद है (जैसे Elastic-Net)।

अनुसंधान प्रेरणा

पैरामीटर ट्यूनिंग की कठिनाई: मौजूदा ट्यूनिंग विधियों को आमतौर पर शोर वितरण या डिज़ाइन सहप्रसरण मैट्रिक्स को जानने की आवश्यकता होती है, जो व्यावहारिक अनुप्रयोगों में अक्सर उपलब्ध नहीं होते हैं।
सैद्धांतिक समझ की कमी: सामान्य M-अनुमानकों के लिए, उनकी अवकलनीय संरचना और अवशिष्ट वितरण की सैद्धांतिक समझ अभी भी पर्याप्त गहरी नहीं है।
व्यावहारिक आवश्यकता: एक पूरी तरह से अनुकूली ट्यूनिंग कसौटी की आवश्यकता है जो अज्ञात पैरामीटर पर निर्भर न हो और इष्टतम हानि-दंड जोड़ी को प्रभावी ढंग से चुन सके।

मौजूदा विधियों की सीमाएं

अधिकांश मौजूदा कार्य वर्गीय हानि तक सीमित हैं
डिज़ाइन सहप्रसरण मैट्रिक्स $\Sigma$ को जानने की आवश्यकता है
गैर-चिकने दंड फलन के लिए सैद्धांतिक गारंटी की कमी है

मुख्य योगदान

व्युत्पन्न सूत्र की एकीकृत रूपरेखा: किसी भी उत्तल नियमितीकृत M-अनुमानक के लिए $(y,X)$ के संबंध में व्युत्पन्न के लिए सामान्य सूत्र प्रदान करता है, एकीकृत अवकलनीय संरचना को प्रकट करता है।
अवशिष्ट वितरण का स्टोकेस्टिक प्रतिनिधित्व: मध्यम उच्च-आयामी शासन में, व्यक्तिगत अवशिष्ट का सटीक स्टोकेस्टिक प्रतिनिधित्व और स्पर्शोन्मुख सामान्यता परिणाम प्रदान करता है।
अनुकूली ट्यूनिंग कसौटी: पूरी तरह से अनुकूली पैरामीटर चयन कसौटी प्रस्तावित करता है जिसे शोर वितरण या डिज़ाइन सहप्रसरण को जानने की आवश्यकता नहीं है।
प्रभावी स्वतंत्रता की डिग्री का नया संबंध: M-अनुमानक व्युत्पन्न और प्रभावी स्वतंत्रता की डिग्री के बीच नया संबंध स्थापित करता है।

विधि विवरण

समस्या सेटिंग

रैखिक मॉडल $y = X\beta^* + \varepsilon$ पर विचार करें, जहां:

$X \in \mathbb{R}^{n \times p}$ की पंक्ति वेक्टर $N(0,\Sigma)$ से स्वतंत्र और समान रूप से वितरित हैं
$\varepsilon$ $X$ से स्वतंत्र है, सतत वितरण के साथ
आयाम $p$ और नमूना आकार $n$ समान क्रम के हैं

मुख्य तकनीकी रूपरेखा

1. व्युत्पन्न सूत्र (प्रमेय 1)

लगभग सभी $(y,X)$ के लिए, मैट्रिक्स $\hat{A} \in \mathbb{R}^{p \times p}$ मौजूद है जैसे:

$\frac{\partial}{\partial y_i}\hat{\beta}(y,X) = \hat{A}X^\top e_i \psi'(r_i)$

$\frac{\partial}{\partial x_{ij}}\hat{\beta}(y,X) = \hat{A}e_j\psi(r_i) - \hat{A}X^\top e_i \psi'(r_i)\hat{\beta}_j$

जहां $r_i = y_i - x_i^\top\hat{\beta}$ , $\psi = \rho'$ , $\|\Sigma^{1/2}\hat{A}\Sigma^{1/2}\|_{op} \leq (n\mu)^{-1}$ ।

2. अवशिष्ट वितरण (प्रमेय 4)

प्रत्येक $i = 1,\ldots,n$ के लिए, $Z_i \sim N(0,1)$ मौजूद है जो $\varepsilon_i$ से स्वतंत्र है जैसे:

$\left|r_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) - (\varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i)\right| \leq O_P(n^{-1/4})(\text{त्रुटि पद})$

यह अवशिष्ट का स्टोकेस्टिक प्रतिनिधित्व देता है: $r_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) \approx \varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i$

3. अनुकूली ट्यूनिंग कसौटी

अवशिष्ट वितरण के आधार पर, ट्यूनिंग कसौटी प्रस्तावित करें:

$\text{Crit}(\rho, g) = \left\|r + \frac{\hat{df}}{\text{tr}[V]}\psi(r)\right\|^2$

जहां:

$r = y - X\hat{\beta}_{\rho,g}$
$\hat{df} = \text{tr}[X(\partial/\partial y)\hat{\beta}_{\rho,g}]$
$V = \text{diag}\{\psi'(r)\}(I_n - X(\partial/\partial y)\hat{\beta}_{\rho,g})$

तकनीकी नवाचार बिंदु

एकीकृत अवकलनीय संरचना: पहली बार सामान्य उत्तल M-अनुमानकों के लिए एकीकृत व्युत्पन्न सूत्र स्थापित करता है, गैर-चिकने दंड सहित।
प्रभावी स्वतंत्रता की डिग्री का अनुमान: $\hat{df}/\text{tr}[V]$ को $\text{tr}[\Sigma\hat{A}]$ के अनुमान के रूप में प्रस्तावित करता है, $\Sigma$ पर निर्भरता से बचता है।
संभाव्यता उपकरणों का नवीन उपयोग: Stein सूत्र और गॉसीय समाकलन तकनीकों का कुशलतापूर्वक उपयोग करके उच्च-आयामी M-अनुमानकों को संभालता है।

प्रयोगात्मक सेटिंग

डेटा जनन प्रक्रिया

नमूना आकार: $n = 1001$ , आयाम: $p = 1000$
डिज़ाइन मैट्रिक्स: $X$ की पंक्तियां $N(0,\Sigma)$ से स्वतंत्र और समान रूप से वितरित हैं, जहां $\Sigma = R^\top R/(2p)$ , $R$ Rademacher मैट्रिक्स है
सत्य पैरामीटर: $\beta^*$ के पहले 100 घटक $\sqrt{10}/10$ हैं, शेष 0 हैं
शोर: $\varepsilon_i$ स्वतंत्र और समान रूप से स्वतंत्रता की डिग्री 2 के साथ t वितरण से वितरित हैं (भारी-पूंछ)

मॉडल सेटिंग

Huber-Elastic-Net अनुमानक का उपयोग करें:

हानि फलन: $\rho(u;\Lambda) = \Lambda^2 H(\Lambda^{-1}u)$ , जहां $H$ Huber हानि है
दंड पद: $g(b;\lambda,\tau) = \lambda\|b\|_1 + (\tau/2)\|b\|_2^2$

मूल्यांकन मेट्रिक्स

नमूना-बाहर त्रुटि: $\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2$
ट्यूनिंग कसौटी की अनुमान त्रुटि
अवशिष्ट सामान्यता परीक्षण

प्रयोगात्मक परिणाम

मुख्य परिणाम

1. ट्यूनिंग कसौटी की प्रभावशीलता

चित्र 1 $(\lambda,\tau)$ ग्रिड पर दिखाता है:

सत्य नमूना-बाहर त्रुटि $\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2$
ट्यूनिंग कसौटी का अनुमान $\|r + (\hat{df}/\text{tr}[V])\psi(r)\|^2/n - \|\varepsilon\|^2/n$
अनुमान त्रुटि

परिणाम दिखाते हैं कि ट्यूनिंग कसौटी नमूना-बाहर त्रुटि के सापेक्ष आकार को सटीक रूप से अनुमानित कर सकती है।

प्रमेय 7-8: ट्यूनिंग कसौटी के आधार पर चुने गए अनुमानक उच्च संभावना के साथ इष्टतम नमूना-बाहर त्रुटि प्राप्त करते हैं
प्रमेय 9: $E[|\text{tr}[\Sigma\hat{A}]\text{tr}[V]/n - \hat{df}/n|] \leq C(γ,μ)n^{-1/2}$
प्रमेय 6: $\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2 + \|\varepsilon\|^2/n = (1+O_P(n^{-1/2}))\|r + \text{tr}[\Sigma\hat{A}]\psi(r)\|^2/n$

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

एकीकृत सैद्धांतिक रूपरेखा: उत्तल नियमितीकृत M-अनुमानकों के लिए एकीकृत अवकलनीयता सिद्धांत स्थापित करता है।
व्यावहारिक ट्यूनिंग उपकरण: पूर्व ज्ञान की आवश्यकता के बिना अनुकूली पैरामीटर चयन विधि प्रदान करता है।
सैद्धांतिक गारंटी: उचित धारणाओं के तहत विधि की प्रभावशीलता साबित करता है।

सीमाएं

गॉसीय डिज़ाइन धारणा: मुख्य सैद्धांतिक परिणामों को गॉसीय डिज़ाइन मैट्रिक्स की आवश्यकता है, हालांकि सिमुलेशन Rademacher डिज़ाइन के लिए भी प्रभावी दिखाते हैं।
मजबूत उत्तलता की आवश्यकता: कुछ परिणामों को दंड पद की मजबूत उत्तलता की आवश्यकता है, हालांकि अनुभाग 7 शिथिलीकरण विधि प्रदान करता है।
कम्प्यूटेशनल जटिलता: कुछ गैर-चिकने दंड के लिए, मैट्रिक्स $\hat{A}$ का कोई बंद-रूप अभिव्यक्ति नहीं है।

भविष्य की दिशाएं

गैर-गॉसीय डिज़ाइन तक विस्तार
अधिक सामान्य हानि फलन वर्गों को संभालना
कम्प्यूटेशनल रूप से कुशल कार्यान्वयन एल्गोरिदम विकसित करना

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण सैद्धांतिक योगदान: पहली बार सामान्य M-अनुमानकों के लिए एकीकृत व्युत्पन्न सिद्धांत प्रदान करता है, महत्वपूर्ण सैद्धांतिक अंतराल को भरता है।
उच्च व्यावहारिक मूल्य: प्रस्तावित ट्यूनिंग कसौटी पूरी तरह से अनुकूली है, व्यावहारिक अनुप्रयोगों में महत्वपूर्ण मूल्य है।
मजबूत तकनीकी नवाचार: उत्तल विश्लेषण, यादृच्छिक मैट्रिक्स सिद्धांत और Stein विधि को कुशलतापूर्वक जोड़ता है।
पर्याप्त प्रयोगात्मक सत्यापन: विभिन्न सेटिंग्स के माध्यम से सैद्धांतिक भविष्यवाणियों की सटीकता को सत्यापित करता है।

कमियां

प्रतिबंधक धारणाएं: गॉसीय डिज़ाइन धारणा विधि की सार्वभौमिकता को सीमित करती है।
कम्प्यूटेशनल विचार अपर्याप्त: व्यावहारिक कम्प्यूटेशन में संख्यात्मक स्थिरता और दक्षता पर चर्चा कम है।
अधूरी तुलना: अन्य अनुकूली विधियों के साथ अनुभवजन्य तुलना सीमित है।

प्रभाव

सैद्धांतिक प्रभाव: उच्च-आयामी M-अनुमानक सिद्धांत के लिए नए विश्लेषण उपकरण प्रदान करता है।
व्यावहारिक मूल्य: मजबूत प्रतिगमन में पैरामीटर चयन के लिए व्यावहारिक विधि प्रदान करता है।
पद्धतिगत योगदान: दिखाता है कि कैसे उच्च-आयामी संभाव्यता को सांख्यिकीय अनुमान के साथ जोड़ा जाए।

लागू परिदृश्य

उच्च-आयामी मजबूत प्रतिगमन समस्याएं
विषम मान या भारी-पूंछ वाले शोर वाले डेटा विश्लेषण
मजबूती की आवश्यकता वाले मशीन लर्निंग अनुप्रयोगों में अनुकूली पैरामीटर चयन
वित्त, जैव सूचना विज्ञान आदि जहां मजबूती की आवश्यकता अधिक है

संदर्भ

मुख्य संदर्भ में शामिल हैं:

Bayati, M. and Montanari, A. (2012). गॉसीय मैट्रिक्स के लिए lasso जोखिम।
El Karoui, N. et al. (2013). उच्च-आयामी भविष्यवाणीकारों के साथ मजबूत प्रतिगमन पर।
Thrampoulidis, C. et al. (2018). उच्च आयामों में नियमितीकृत m-अनुमानकों की सटीक त्रुटि विश्लेषण।
Bellec, P.C. (2020). उत्तल दंड के साथ मजबूत m-अनुमानकों के लिए नमूना-बाहर त्रुटि अनुमान।