Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning
Bellec, Shen
This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatβ(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatβ$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatβ(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.
academic
Ableitungen und Residualverteilung von regularisierten M-Schätzern mit Anwendung auf adaptive Parameteroptimierung
Diese Arbeit untersucht M-Schätzer mit Gradienten-Lipschitz-Verlustfunktionen und konvexen Strafterm in linearen Modellen mit Gauß-Designmatrix und beliebiger Rauschverteilung. Die Hauptbeiträge umfassen: (1) Bereitstellung allgemeiner Formeln für die Ableitungen des regularisierten M-Schätzers β^(y,X) bezüglich y und X, die die einfache differenzierbare Struktur aller konvexen regularisierten M-Schätzer offenbaren; (2) Charakterisierung der Verteilung der Residuen ri=yi−xi⊤β^ im mittelhochdimensionalen Regime unter Verwendung dieser Ableitungen; (3) Vorschlag eines neuen adaptiven Kriteriums zur Auswahl des Regularisierungsparameters basierend auf der Residualverteilung, das den außerhalb der Stichprobe liegenden Fehler approximiert, ohne die Rauschverteilung oder die Design-Kovarianzmatrix zu kennen.
In der hochdimensionalen Statistik sind M-Schätzer ein wichtiges Werkzeug zur Behandlung von Ausreißern und schwanzlastigen Rauschen. Die typische Form eines M-Schätzers ist:
β^(y,X)=argminb∈Rpn1∑i=1nρ(yi−xi⊤b)+g(b)
wobei ρ eine konvexe Verlustfunktion (wie Huber-Verlust) und g ein konvexer Strafterm (wie Elastic-Net) ist.
Schwierigkeit der Parameteroptimierung: Bestehende Optimierungsmethoden erfordern typischerweise Kenntnisse der Rauschverteilung oder der Design-Kovarianzmatrix, die in praktischen Anwendungen oft nicht verfügbar sind.
Unzureichendes theoretisches Verständnis: Das theoretische Verständnis der Differenzierbarkeitstruktur und der Residualverteilung für allgemeine M-Schätzer ist noch nicht ausreichend entwickelt.
Praktische Anforderungen: Ein vollständig adaptives Optimierungskriterium ist erforderlich, das weder von unbekannten Parametern abhängt noch eine effektive Auswahl des optimalen Verlust-Strafterm-Paares ermöglicht.
Einheitlicher Rahmen für Ableitungsformeln: Bereitstellung allgemeiner Formeln für die Ableitungen bezüglich (y,X) für beliebige konvexe regularisierte M-Schätzer, die die einheitliche differenzierbare Struktur offenbaren.
Stochastische Darstellung der Residualverteilung: Bereitstellung einer exakten stochastischen Darstellung einzelner Residuen und asymptotischer Normalitätsergebnisse im mittelhochdimensionalen Regime.
Adaptives Optimierungskriterium: Vorschlag eines vollständig adaptiven Parameterauswahlkriteriums, das keine Kenntnisse der Rauschverteilung oder der Design-Kovarianzmatrix erfordert.
Neue Beziehungen für effektive Freiheitsgrade: Etablierung neuer Verbindungen zwischen M-Schätzer-Ableitungen und effektiven Freiheitsgraden.
Einheitliche differenzierbare Struktur: Erstmalige Etablierung einer einheitlichen Ableitungsformel für allgemeine konvexe M-Schätzer, einschließlich nicht-glatter Straftermfunktionen.
Schätzung effektiver Freiheitsgrade: Vorschlag von df^/tr[V] als Schätzung von tr[ΣA^], wodurch die Abhängigkeit von Σ vermieden wird.
Innovative Verwendung probabilistischer Werkzeuge: Geschickte Anwendung von Stein-Formeln und Gauß-Integrationstechniken zur Behandlung hochdimensionaler M-Schätzer.
Abbildung 2 zeigt das Histogramm und das QQ-Diagramm der standardisierten Residuen ζ1, die unter verschiedenen Parameterkombinationen gut der Standardnormalverteilung entsprechen und die theoretischen Vorhersagen verifizieren.
Theorem 7-8: Beweis, dass der auf dem Optimierungskriterium basierende Schätzer mit hoher Wahrscheinlichkeit den optimalen außerhalb der Stichprobe liegenden Fehler erreicht
Diese Arbeit nutzt erstmals beobachtbare Größen (die nur von den Daten abhängen) zur Beschreibung des M-Schätzer-Verhaltens, anstatt sich auf unbekannte Vorverteilungen oder Kovarianzmatrizen zu verlassen.
Gauß-Design-Annahme: Die wichtigsten theoretischen Ergebnisse erfordern eine Gauß-Designmatrix, obwohl Simulationen zeigen, dass sie auch für Rademacher-Designs wirksam ist.
Starke Konvexitätsanforderung: Einige Ergebnisse erfordern starke Konvexität des Strafterms, obwohl Abschnitt 7 Entspannungsmethoden bietet.
Rechenkomplexität: Für einige nicht-glatte Straftermfunktionen gibt es keine geschlossene Form für die Matrix A^.
Bedeutsamer theoretischer Beitrag: Erstmalige Bereitstellung einer einheitlichen Ableitungstheorie für allgemeine M-Schätzer, die eine wichtige theoretische Lücke füllt.
Hoher praktischer Wert: Das vorgeschlagene Optimierungskriterium ist vollständig adaptiv und hat wichtige praktische Anwendungen.
Starke technische Innovation: Geschickte Kombination von konvexer Analyse, Zufallsmatrixtheorie und Stein-Methoden.
Ausreichende experimentelle Verifikation: Verifikation der Genauigkeit theoretischer Vorhersagen durch verschiedene Einrichtungen.