Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning
Bellec, Shen
This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatβ(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatβ$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatβ(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.
academic
المشتقات والتوزيع المتبقي لمقدّرات M المنتظمة مع تطبيق على الضبط التكيفي
تدرس هذه الورقة مقدّرات M في النماذج الخطية ذات مصفوفة التصميم الغاوسية والتوزيع الضوضائي التعسفي، مع دوال خسارة ذات تدرج ليبشيتز وحدود عقابية محدبة. تتضمن المساهمات الرئيسية: (1) توفير صيغ عامة للمشتقات الخاصة بمقدّرات M المنتظمة β^(y,X) بالنسبة إلى y و X، مما يكشف عن البنية القابلة للتفاضل البسيطة المشتركة بين جميع مقدّرات M المحدبة المنتظمة؛ (2) استخدام هذه المشتقات لتوصيف توزيع البواقي ri=yi−xi⊤β^ في نظام البعد المتوسط حيث يكون البعد وحجم العينة بنفس الترتيب؛ (3) اقتراح معيار تكيفي جديد بناءً على توزيع البواقي لاختيار معاملات الضبط لمقدّرات M المنتظمة، والذي يمكنه تقريب الخطأ خارج العينة دون الحاجة إلى معرفة التوزيع الضوضائي أو تباين التصميم.
في الإحصاء عالي الأبعاد، تعتبر مقدّرات M أداة مهمة للتعامل مع القيم الشاذة والضوضاء ذات الذيل الثقيل. يأخذ مقدّر M النموذجي الشكل:
β^(y,X)=argminb∈Rpn1∑i=1nρ(yi−xi⊤b)+g(b)
حيث ρ هي دالة خسارة محدبة (مثل خسارة هوبر)، و g هي حد عقابي محدب (مثل Elastic-Net).
يوضح الشكل 2 الرسم البياني والرسم البياني QQ للبواقي المعيارية ζ1، والتي تتوافق بشكل جيد مع التوزيع الطبيعي المعياري تحت مجموعات معاملات مختلفة، مما يتحقق من التنبؤات النظرية.
تستخدم هذه الورقة للمرة الأولى كميات قابلة للملاحظة (تعتمد فقط على البيانات) لوصف سلوك مقدّرات M، بدلاً من الاعتماد على التوزيعات السابقة غير القابلة للملاحظة أو مصفوفات التباين.