2025-11-22T06:58:15.988590

Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning

Bellec, Shen
This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatβ(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatβ$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatβ(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.
academic

المشتقات والتوزيع المتبقي لمقدّرات M المنتظمة مع تطبيق على الضبط التكيفي

المعلومات الأساسية

  • معرّف الورقة: 2107.05143
  • العنوان: المشتقات والتوزيع المتبقي لمقدّرات M المنتظمة مع تطبيق على الضبط التكيفي
  • المؤلفون: بيير سي بيليك (جامعة روتجرز)، يي وي شين (جامعة روتجرز)
  • التصنيف: math.ST stat.ML stat.TH
  • المؤتمر المنشور: Proceedings of Machine Learning Research vol 178:1–36, 2022
  • رابط الورقة: https://arxiv.org/abs/2107.05143

الملخص

تدرس هذه الورقة مقدّرات M في النماذج الخطية ذات مصفوفة التصميم الغاوسية والتوزيع الضوضائي التعسفي، مع دوال خسارة ذات تدرج ليبشيتز وحدود عقابية محدبة. تتضمن المساهمات الرئيسية: (1) توفير صيغ عامة للمشتقات الخاصة بمقدّرات M المنتظمة β^(y,X)\hat{\beta}(y,X) بالنسبة إلى yy و XX، مما يكشف عن البنية القابلة للتفاضل البسيطة المشتركة بين جميع مقدّرات M المحدبة المنتظمة؛ (2) استخدام هذه المشتقات لتوصيف توزيع البواقي ri=yixiβ^r_i = y_i-x_i^\top\hat{\beta} في نظام البعد المتوسط حيث يكون البعد وحجم العينة بنفس الترتيب؛ (3) اقتراح معيار تكيفي جديد بناءً على توزيع البواقي لاختيار معاملات الضبط لمقدّرات M المنتظمة، والذي يمكنه تقريب الخطأ خارج العينة دون الحاجة إلى معرفة التوزيع الضوضائي أو تباين التصميم.

الخلفية البحثية والدافع

خلفية المشكلة

في الإحصاء عالي الأبعاد، تعتبر مقدّرات M أداة مهمة للتعامل مع القيم الشاذة والضوضاء ذات الذيل الثقيل. يأخذ مقدّر M النموذجي الشكل: β^(y,X)=argminbRp1ni=1nρ(yixib)+g(b)\hat{\beta}(y,X) = \arg\min_{b\in\mathbb{R}^p} \frac{1}{n}\sum_{i=1}^n \rho(y_i - x_i^\top b) + g(b)

حيث ρ\rho هي دالة خسارة محدبة (مثل خسارة هوبر)، و gg هي حد عقابي محدب (مثل Elastic-Net).

دافع البحث

  1. صعوبة ضبط المعاملات: تتطلب الطرق الموجودة عادة معرفة التوزيع الضوضائي أو مصفوفة تباين التصميم، وهي غالباً غير متاحة في التطبيقات العملية.
  2. عدم كفاية الفهم النظري: لا يزال الفهم النظري لبنية القابلية للتفاضل وتوزيع البواقي لمقدّرات M العامة غير كافٍ.
  3. الحاجة العملية: الحاجة إلى معيار ضبط تكيفي بالكامل، لا يعتمد على معاملات غير معروفة، ويمكنه اختيار زوج الخسارة-العقوبة الأمثل بفعالية.

قيود الطرق الموجودة

  • معظم الأعمال الموجودة مقتصرة على الخسارة التربيعية
  • تتطلب معرفة مصفوفة تباين التصميم Σ\Sigma
  • تفتقر إلى ضمانات نظرية للدوال العقابية غير الملساء

المساهمات الأساسية

  1. إطار عمل موحد لصيغ المشتقات: توفير صيغ عامة للمشتقات بالنسبة إلى (y,X)(y,X) لأي مقدّر M محدب منتظم، مما يكشف عن بنية قابلية للتفاضل موحدة.
  2. تمثيل عشوائي لتوزيع البواقي: توفير تمثيل عشوائي دقيق ونتائج التقارب الطبيعي المقارب للبواقي الفردية في نظام البعد المتوسط.
  3. معيار ضبط تكيفي: اقتراح معيار اختيار معاملات تكيفي بالكامل، لا يتطلب معرفة التوزيع الضوضائي أو تباين التصميم.
  4. علاقات جديدة لدرجات الحرية الفعالة: إنشاء روابط جديدة بين مشتقات مقدّرات M ودرجات الحرية الفعالة.

شرح الطريقة

إعداد المشكلة

النظر في النموذج الخطي y=Xβ+εy = X\beta^* + \varepsilon، حيث:

  • صفوف XRn×pX \in \mathbb{R}^{n \times p} موزعة بشكل مستقل وموزع بشكل متطابق من N(0,Σ)N(0,\Sigma)
  • ε\varepsilon مستقل عن XX، مع توزيع مستمر
  • البعد pp والعينة nn بنفس الترتيب

الإطار التقني الأساسي

1. صيغة المشتقات (النظرية 1)

لكل (y,X)(y,X) تقريباً، توجد مصفوفة A^Rp×p\hat{A} \in \mathbb{R}^{p \times p} بحيث:

yiβ^(y,X)=A^Xeiψ(ri)\frac{\partial}{\partial y_i}\hat{\beta}(y,X) = \hat{A}X^\top e_i \psi'(r_i)

xijβ^(y,X)=A^ejψ(ri)A^Xeiψ(ri)β^j\frac{\partial}{\partial x_{ij}}\hat{\beta}(y,X) = \hat{A}e_j\psi(r_i) - \hat{A}X^\top e_i \psi'(r_i)\hat{\beta}_j

حيث ri=yixiβ^r_i = y_i - x_i^\top\hat{\beta}، ψ=ρ\psi = \rho'، Σ1/2A^Σ1/2op(nμ)1\|\Sigma^{1/2}\hat{A}\Sigma^{1/2}\|_{op} \leq (n\mu)^{-1}.

2. توزيع البواقي (النظرية 4)

لكل i=1,,ni = 1,\ldots,n، يوجد ZiN(0,1)Z_i \sim N(0,1) مستقل عن εi\varepsilon_i بحيث:

ri+tr[ΣA^]ψ(ri)(εi+Σ1/2(β^β)Zi)OP(n1/4)(حد الخطأ)\left|r_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) - (\varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i)\right| \leq O_P(n^{-1/4})(\text{حد الخطأ})

هذا يعطي تمثيلاً عشوائياً للبواقي: ri+tr[ΣA^]ψ(ri)εi+Σ1/2(β^β)Zir_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) \approx \varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i

3. معيار الضبط التكيفي

بناءً على توزيع البواقي، يُقترح معيار الضبط:

Crit(ρ,g)=r+df^tr[V]ψ(r)2\text{Crit}(\rho, g) = \left\|r + \frac{\hat{df}}{\text{tr}[V]}\psi(r)\right\|^2

حيث:

  • r=yXβ^ρ,gr = y - X\hat{\beta}_{\rho,g}
  • df^=tr[X(/y)β^ρ,g]\hat{df} = \text{tr}[X(\partial/\partial y)\hat{\beta}_{\rho,g}]
  • V=diag{ψ(r)}(InX(/y)β^ρ,g)V = \text{diag}\{\psi'(r)\}(I_n - X(\partial/\partial y)\hat{\beta}_{\rho,g})

نقاط الابتكار التقني

  1. بنية قابلية للتفاضل الموحدة: إنشاء صيغ مشتقات موحدة لمقدّرات M المحدبة العامة للمرة الأولى، بما في ذلك العقوبات غير الملساء.
  2. تقدير درجات الحرية الفعالة: اقتراح df^/tr[V]\hat{df}/\text{tr}[V] كتقدير لـ tr[ΣA^]\text{tr}[\Sigma\hat{A}]، مما يتجنب الاعتماد على Σ\Sigma.
  3. الاستخدام المبتكر لأدوات الاحتمالية: الجمع الماهر بين تحليل التحدب ونظرية المصفوفات العشوائية وطريقة Stein.

إعداد التجارب

عملية توليد البيانات

  • حجم العينة: n=1001n = 1001، البعد: p=1000p = 1000
  • مصفوفة التصميم: صفوف XX موزعة بشكل مستقل وموزع بشكل متطابق من N(0,Σ)N(0,\Sigma)، حيث Σ=RR/(2p)\Sigma = R^\top R/(2p)، RR مصفوفة Rademacher
  • المعامل الحقيقي: أول 100 مكون من β\beta^* يساوي 10/10\sqrt{10}/10، والباقي يساوي 0
  • الضوضاء: εi\varepsilon_i موزعة بشكل مستقل وموزع بشكل متطابق من توزيع t بدرجات حرية تساوي 2 (ذيل ثقيل)

إعداد النموذج

استخدام مقدّر Huber-Elastic-Net:

  • دالة الخسارة: ρ(u;Λ)=Λ2H(Λ1u)\rho(u;\Lambda) = \Lambda^2 H(\Lambda^{-1}u)، حيث HH هي خسارة هوبر
  • الحد العقابي: g(b;λ,τ)=λb1+(τ/2)b22g(b;\lambda,\tau) = \lambda\|b\|_1 + (\tau/2)\|b\|_2^2

مؤشرات التقييم

  • الخطأ خارج العينة: Σ1/2(β^β)2\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2
  • خطأ تقريب معيار الضبط
  • اختبار الحالة الطبيعية للبواقي

نتائج التجارب

النتائج الرئيسية

1. فعالية معيار الضبط

يوضح الشكل 1 على شبكة (λ,τ)(\lambda,\tau):

  • الخطأ الحقيقي خارج العينة Σ1/2(β^β)2\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2
  • تقريب معيار الضبط r+(df^/tr[V])ψ(r)2/nε2/n\|r + (\hat{df}/\text{tr}[V])\psi(r)\|^2/n - \|\varepsilon\|^2/n
  • خطأ التقريب

تظهر النتائج أن معيار الضبط يمكنه تقريب الحجم النسبي للخطأ خارج العينة بدقة.

2. التحقق من الحالة الطبيعية للبواقي

يوضح الشكل 2 الرسم البياني والرسم البياني QQ للبواقي المعيارية ζ1\zeta_1، والتي تتوافق بشكل جيد مع التوزيع الطبيعي المعياري تحت مجموعات معاملات مختلفة، مما يتحقق من التنبؤات النظرية.

3. تقدير درجات الحرية الفعالة

يوضح الجدول 1 أن قيم tr[ΣA^]df^/tr[V]|\text{tr}[\Sigma\hat{A}] - \hat{df}/\text{tr}[V]| صغيرة جداً (حوالي 0.002)، مما يؤكد أن df^/tr[V]\hat{df}/\text{tr}[V] هو تقدير جيد لـ tr[ΣA^]\text{tr}[\Sigma\hat{A}].

الضمانات النظرية

  • النظريات 7-8: إثبات أن المقدّر المختار بناءً على معيار الضبط يحقق خطأ عينة خارجي أمثل باحتمالية عالية
  • النظرية 9: E[tr[ΣA^]tr[V]/ndf^/n]C(γ,μ)n1/2E[|\text{tr}[\Sigma\hat{A}]\text{tr}[V]/n - \hat{df}/n|] \leq C(γ,μ)n^{-1/2}
  • النظرية 6: Σ1/2(β^β)2+ε2/n=(1+OP(n1/2))r+tr[ΣA^]ψ(r)2/n\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2 + \|\varepsilon\|^2/n = (1+O_P(n^{-1/2}))\|r + \text{tr}[\Sigma\hat{A}]\psi(r)\|^2/n

الأعمال ذات الصلة

نظرية مقدّرات M عالية الأبعاد

تبني هذه الورقة على الأعمال التالية:

  • Bayati & Montanari (2012): تحليل المخاطر لـ LASSO
  • El Karoui et al. (2013): دراسة مقدّرات M بدون عقوبة
  • Thrampoulidis et al. (2018): تحليل الخطأ الدقيق لأزواج الخسارة-العقوبة العامة

طرق ضبط المعاملات

المقارنة مع الطرق الموجودة:

  • معيار ALO (Rad et al., 2020): يتطلب افتراض التفاضل المستمر من الدرجة الثانية
  • المعايير المستندة إلى Σ (Bellec, 2020): تتطلب معرفة تباين التصميم
  • طريقة هذه الورقة: تكيفية بالكامل، قابلة للتطبيق على الدوال غير الملساء

تفرد المساهمات التقنية

تستخدم هذه الورقة للمرة الأولى كميات قابلة للملاحظة (تعتمد فقط على البيانات) لوصف سلوك مقدّرات M، بدلاً من الاعتماد على التوزيعات السابقة غير القابلة للملاحظة أو مصفوفات التباين.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. إطار عمل نظري موحد: إنشاء نظرية قابلية للتفاضل الموحدة لمقدّرات M المحدبة المنتظمة.
  2. أداة ضبط عملية: توفير طريقة اختيار معاملات تكيفية لا تتطلب معرفة سابقة.
  3. ضمانات نظرية: إثبات فعالية الطريقة تحت افتراضات معقولة.

القيود

  1. افتراض التصميم الغاوسي: تتطلب نتائج النظرية الرئيسية مصفوفة تصميم غاوسية، على الرغم من أن المحاكاة تظهر الفعالية أيضاً مع تصميم Rademacher.
  2. عدم كفاية الاعتبارات الحسابية: هناك نقاش أقل حول الاستقرار العددي والكفاءة في الحساب العملي.
  3. المقارنة غير الشاملة: المقارنة التجريبية مع الطرق التكيفية الأخرى محدودة.

التأثير

  1. التأثير النظري: توفير أدوات تحليل جديدة لنظرية مقدّرات M عالية الأبعاد.
  2. القيمة العملية: توفير طريقة عملية لاختيار المعاملات في الانحدار القوي.
  3. المساهمة المنهجية: إظهار كيفية دمج نظرية الاحتمالية عالية الأبعاد مع الاستدلال الإحصائي.

السيناريوهات المعمول بها

  • مشاكل الانحدار القوي عالي الأبعاد
  • تحليل البيانات مع القيم الشاذة أو الضوضاء ذات الذيل الثقيل
  • تطبيقات التعلم الآلي التي تتطلب اختيار معاملات تكيفي
  • المجالات التي تتطلب قوة عالية مثل التمويل والمعلوماتية الحيوية

المراجع

تتضمن المراجع الرئيسية:

  • Bayati, M. and Montanari, A. (2012). مخاطر lasso لمصفوفات غاوسية.
  • El Karoui, N. et al. (2013). حول الانحدار القوي مع متنبئات عالية الأبعاد.
  • Thrampoulidis, C. et al. (2018). تحليل الخطأ الدقيق لمقدّرات M المنتظمة في الأبعاد العالية.
  • Bellec, P.C. (2020). تقدير الخطأ خارج العينة لمقدّرات M القوية مع عقوبة محدبة.