Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning
Bellec, Shen
This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatβ(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatβ$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatβ(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.
academic
Derivate e distribuzione residuale di M-stimatori regolarizzati con applicazione all'accordatura adattiva
Questo articolo studia gli M-stimatori con funzioni di perdita a gradiente Lipschitz e termini di penalità convessi in modelli lineari con matrice di progettazione gaussiana e distribuzione del rumore arbitraria. I principali contributi includono: (1) fornire formule generali per le derivate dello stimatore M regolarizzato β^(y,X) rispetto a y e X, rivelando una struttura differenziabile semplice condivisa da tutti gli M-stimatori convessi regolarizzati; (2) utilizzare queste derivate per caratterizzare la distribuzione dei residui ri=yi−xi⊤β^ nel regime di dimensionalità moderata dove la dimensione e la numerosità campionaria sono dello stesso ordine; (3) proporre un nuovo criterio adattivo basato sulla distribuzione residuale per selezionare i parametri di accordatura dello stimatore M regolarizzato, criterio che approssima l'errore fuori campione senza richiedere la conoscenza della distribuzione del rumore o della covarianza di progettazione.
Nella statistica ad alta dimensionalità, gli M-stimatori sono strumenti importanti per gestire valori anomali e rumore con code pesanti. La forma tipica di un M-stimatore è:
β^(y,X)=argminb∈Rpn1∑i=1nρ(yi−xi⊤b)+g(b)
dove ρ è una funzione di perdita convessa (come la perdita di Huber) e g è un termine di penalità convesso (come Elastic-Net).
Difficoltà nell'accordatura dei parametri: i metodi di accordatura esistenti richiedono tipicamente la conoscenza della distribuzione del rumore o della matrice di covarianza di progettazione, spesso non disponibili nelle applicazioni pratiche.
Insufficienza della comprensione teorica: la comprensione teorica della struttura differenziabile e della distribuzione residuale per M-stimatori generali è ancora incompleta.
Necessità pratica: è necessario un criterio di accordatura completamente adattivo che non dipenda da parametri sconosciuti e che possa selezionare efficacemente la coppia perdita-penalità ottimale.
Quadro unificato per le formule di derivata: fornisce formule generali per le derivate rispetto a (y,X) di qualsiasi M-stimatore convesso regolarizzato, rivelando una struttura differenziabile unificata.
Rappresentazione stocastica della distribuzione residuale: nel regime di dimensionalità moderata, fornisce una rappresentazione stocastica esatta e risultati di normalità asintotica per i residui individuali.
Criterio di accordatura adattivo: propone un criterio di selezione dei parametri completamente adattivo che non richiede la conoscenza della distribuzione del rumore o della covarianza di progettazione.
Nuove relazioni con i gradi di libertà effettivi: stabilisce nuovi collegamenti tra le derivate dello stimatore M e i gradi di libertà effettivi.
Struttura differenziabile unificata: stabilisce per la prima volta una formula di derivata unificata per M-stimatori convessi generali, incluse le penalità non lisce.
Stima dei gradi di libertà effettivi: propone df^/tr[V] come stima di tr[ΣA^], evitando la dipendenza da Σ.
Uso innovativo di strumenti probabilistici: applica abilmente la formula di Stein e tecniche di integrazione gaussiana per gestire M-stimatori ad alta dimensionalità.
Matrice di progettazione: le righe di X sono distribuite indipendentemente e identicamente secondo N(0,Σ), dove Σ=R⊤R/(2p) e R è una matrice di Rademacher
Parametro vero: i primi 100 componenti di β∗ sono 10/10, gli altri sono 0
Rumore: εi distribuito indipendentemente e identicamente secondo una distribuzione t con 2 gradi di libertà (coda pesante)
La Figura 2 mostra l'istogramma e il grafico Q-Q dei residui standardizzati ζ1, che seguono bene la distribuzione normale standard in diverse combinazioni di parametri, verificando le previsioni teoriche.
Questo articolo è il primo a utilizzare quantità osservabili (dipendenti solo dai dati) per descrivere il comportamento degli M-stimatori, piuttosto che dipendere da distribuzioni a priori non osservabili o matrici di covarianza.
Ipotesi di progettazione gaussiana: i principali risultati teorici richiedono una matrice di progettazione gaussiana, sebbene le simulazioni mostrino efficacia anche per progettazioni di Rademacher.
Requisito di forte convessità: alcuni risultati richiedono la forte convessità del termine di penalità, sebbene la Sezione 7 fornisca metodi di rilassamento.
Complessità computazionale: per alcune penalità non lisce, la matrice A^ non ha un'espressione in forma chiusa.
Contributo teorico significativo: fornisce per la prima volta una teoria delle derivate unificata per M-stimatori generali, colmando un importante vuoto teorico.
Alto valore pratico: il criterio di accordatura proposto è completamente adattivo e ha importanza significativa nelle applicazioni pratiche.
Forte innovazione tecnica: combina abilmente analisi convessa, teoria delle matrici casuali e metodo di Stein.
Verifica sperimentale sufficiente: verifica l'accuratezza delle previsioni teoriche attraverso diverse impostazioni.