2025-11-22T06:58:15.988590

Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning

Bellec, Shen

This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatÎ²(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatÎ²$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatÎ²(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.

academic

Derivate e distribuzione residuale di M-stimatori regolarizzati con applicazione all'accordatura adattiva

Informazioni Fondamentali

ID Articolo: 2107.05143
Titolo: Derivate e distribuzione residuale di M-stimatori regolarizzati con applicazione all'accordatura adattiva
Autori: Pierre C. Bellec (Rutgers University), Yiwei Shen (Rutgers University)
Classificazione: math.ST stat.ML stat.TH
Conferenza di Pubblicazione: Proceedings of Machine Learning Research vol 178:1–36, 2022
Link Articolo: https://arxiv.org/abs/2107.05143

Riassunto

Questo articolo studia gli M-stimatori con funzioni di perdita a gradiente Lipschitz e termini di penalità convessi in modelli lineari con matrice di progettazione gaussiana e distribuzione del rumore arbitraria. I principali contributi includono: (1) fornire formule generali per le derivate dello stimatore M regolarizzato $\hat{\beta}(y,X)$ rispetto a $y$ e $X$ , rivelando una struttura differenziabile semplice condivisa da tutti gli M-stimatori convessi regolarizzati; (2) utilizzare queste derivate per caratterizzare la distribuzione dei residui $r_i = y_i-x_i^\top\hat{\beta}$ nel regime di dimensionalità moderata dove la dimensione e la numerosità campionaria sono dello stesso ordine; (3) proporre un nuovo criterio adattivo basato sulla distribuzione residuale per selezionare i parametri di accordatura dello stimatore M regolarizzato, criterio che approssima l'errore fuori campione senza richiedere la conoscenza della distribuzione del rumore o della covarianza di progettazione.

Contesto di Ricerca e Motivazione

Sfondo del Problema

Nella statistica ad alta dimensionalità, gli M-stimatori sono strumenti importanti per gestire valori anomali e rumore con code pesanti. La forma tipica di un M-stimatore è: $\hat{\beta}(y,X) = \arg\min_{b\in\mathbb{R}^p} \frac{1}{n}\sum_{i=1}^n \rho(y_i - x_i^\top b) + g(b)$

dove $\rho$ è una funzione di perdita convessa (come la perdita di Huber) e $g$ è un termine di penalità convesso (come Elastic-Net).

Motivazione della Ricerca

Difficoltà nell'accordatura dei parametri: i metodi di accordatura esistenti richiedono tipicamente la conoscenza della distribuzione del rumore o della matrice di covarianza di progettazione, spesso non disponibili nelle applicazioni pratiche.
Insufficienza della comprensione teorica: la comprensione teorica della struttura differenziabile e della distribuzione residuale per M-stimatori generali è ancora incompleta.
Necessità pratica: è necessario un criterio di accordatura completamente adattivo che non dipenda da parametri sconosciuti e che possa selezionare efficacemente la coppia perdita-penalità ottimale.

Limitazioni dei Metodi Esistenti

La maggior parte dei lavori esistenti si limita alla perdita quadratica
Richiede la conoscenza della matrice di covarianza di progettazione $\Sigma$
Mancano garanzie teoriche per funzioni di penalità non lisce

Contributi Fondamentali

Quadro unificato per le formule di derivata: fornisce formule generali per le derivate rispetto a $(y,X)$ di qualsiasi M-stimatore convesso regolarizzato, rivelando una struttura differenziabile unificata.
Rappresentazione stocastica della distribuzione residuale: nel regime di dimensionalità moderata, fornisce una rappresentazione stocastica esatta e risultati di normalità asintotica per i residui individuali.
Criterio di accordatura adattivo: propone un criterio di selezione dei parametri completamente adattivo che non richiede la conoscenza della distribuzione del rumore o della covarianza di progettazione.
Nuove relazioni con i gradi di libertà effettivi: stabilisce nuovi collegamenti tra le derivate dello stimatore M e i gradi di libertà effettivi.

Dettagli Metodologici

Impostazione del Problema

Si consideri il modello lineare $y = X\beta^* + \varepsilon$ , dove:

Le righe di $X \in \mathbb{R}^{n \times p}$ sono distribuite indipendentemente e identicamente secondo $N(0,\Sigma)$
$\varepsilon$ è indipendente da $X$ e ha distribuzione continua
La dimensione $p$ e la numerosità campionaria $n$ sono dello stesso ordine

Quadro Tecnico Fondamentale

1. Formula di Derivata (Teorema 1)

Per quasi tutti $(y,X)$ , esiste una matrice $\hat{A} \in \mathbb{R}^{p \times p}$ tale che:

$\frac{\partial}{\partial y_i}\hat{\beta}(y,X) = \hat{A}X^\top e_i \psi'(r_i)$

$\frac{\partial}{\partial x_{ij}}\hat{\beta}(y,X) = \hat{A}e_j\psi(r_i) - \hat{A}X^\top e_i \psi'(r_i)\hat{\beta}_j$

dove $r_i = y_i - x_i^\top\hat{\beta}$ , $\psi = \rho'$ , $\|\Sigma^{1/2}\hat{A}\Sigma^{1/2}\|_{op} \leq (n\mu)^{-1}$ .

2. Distribuzione Residuale (Teorema 4)

Per ogni $i = 1,\ldots,n$ , esiste $Z_i \sim N(0,1)$ indipendente da $\varepsilon_i$ tale che:

$\left|r_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) - (\varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i)\right| \leq O_P(n^{-1/4})(\text{termine di errore})$

Questo fornisce una rappresentazione stocastica dei residui: $r_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) \approx \varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i$

3. Criterio di Accordatura Adattivo

Basato sulla distribuzione residuale, si propone il criterio di accordatura:

$\text{Crit}(\rho, g) = \left\|r + \frac{\hat{df}}{\text{tr}[V]}\psi(r)\right\|^2$

dove:

$r = y - X\hat{\beta}_{\rho,g}$
$\hat{df} = \text{tr}[X(\partial/\partial y)\hat{\beta}_{\rho,g}]$
$V = \text{diag}\{\psi'(r)\}(I_n - X(\partial/\partial y)\hat{\beta}_{\rho,g})$

Punti di Innovazione Tecnica

Struttura differenziabile unificata: stabilisce per la prima volta una formula di derivata unificata per M-stimatori convessi generali, incluse le penalità non lisce.
Stima dei gradi di libertà effettivi: propone $\hat{df}/\text{tr}[V]$ come stima di $\text{tr}[\Sigma\hat{A}]$ , evitando la dipendenza da $\Sigma$ .
Uso innovativo di strumenti probabilistici: applica abilmente la formula di Stein e tecniche di integrazione gaussiana per gestire M-stimatori ad alta dimensionalità.

Impostazione Sperimentale

Processo di Generazione dei Dati

Numerosità campionaria: $n = 1001$ , Dimensione: $p = 1000$
Matrice di progettazione: le righe di $X$ sono distribuite indipendentemente e identicamente secondo $N(0,\Sigma)$ , dove $\Sigma = R^\top R/(2p)$ e $R$ è una matrice di Rademacher
Parametro vero: i primi 100 componenti di $\beta^*$ sono $\sqrt{10}/10$ , gli altri sono 0
Rumore: $\varepsilon_i$ distribuito indipendentemente e identicamente secondo una distribuzione t con 2 gradi di libertà (coda pesante)

Impostazione del Modello

Utilizzo dello stimatore Huber-Elastic-Net:

Funzione di perdita: $\rho(u;\Lambda) = \Lambda^2 H(\Lambda^{-1}u)$ , dove $H$ è la perdita di Huber
Termine di penalità: $g(b;\lambda,\tau) = \lambda\|b\|_1 + (\tau/2)\|b\|_2^2$

Indicatori di Valutazione

Errore fuori campione: $\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2$
Errore di approssimazione del criterio di accordatura
Test di normalità residuale

Risultati Sperimentali

Risultati Principali

1. Efficacia del Criterio di Accordatura

La Figura 1 mostra su una griglia $(\lambda,\tau)$ :

Errore fuori campione vero $\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2$
Approssimazione del criterio di accordatura $\|r + (\hat{df}/\text{tr}[V])\psi(r)\|^2/n - \|\varepsilon\|^2/n$
Errore di approssimazione

I risultati mostrano che il criterio di accordatura approssima accuratamente la grandezza relativa dell'errore fuori campione.

2. Verifica della Normalità Residuale

La Figura 2 mostra l'istogramma e il grafico Q-Q dei residui standardizzati $\zeta_1$ , che seguono bene la distribuzione normale standard in diverse combinazioni di parametri, verificando le previsioni teoriche.

3. Stima dei Gradi di Libertà Effettivi

La Tabella 1 mostra che i valori di $|\text{tr}[\Sigma\hat{A}] - \hat{df}/\text{tr}[V]|$ sono piccoli (circa 0,002), confermando che $\hat{df}/\text{tr}[V]$ è una buona stima di $\text{tr}[\Sigma\hat{A}]$ .

Garanzie Teoriche

Teoremi 7-8: provano che lo stimatore selezionato basato sul criterio di accordatura raggiunge con alta probabilità l'errore fuori campione ottimale
Teorema 9: $E[|\text{tr}[\Sigma\hat{A}]\text{tr}[V]/n - \hat{df}/n|] \leq C(γ,μ)n^{-1/2}$
Teorema 6: $\|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2 + \|\varepsilon\|^2/n = (1+O_P(n^{-1/2}))\|r + \text{tr}[\Sigma\hat{A}]\psi(r)\|^2/n$

Lavori Correlati

Teoria degli M-Stimatori ad Alta Dimensionalità

Questo articolo si basa sui seguenti lavori:

Bayati & Montanari (2012): analisi del rischio per LASSO
El Karoui et al. (2013): studio degli M-stimatori senza penalità
Thrampoulidis et al. (2018): analisi dell'errore esatto per coppie perdita-penalità generali

Metodi di Accordatura dei Parametri

Confronto con i metodi esistenti:

Criterio ALO (Rad et al., 2020): richiede ipotesi di differenziabilità continua del secondo ordine
Criteri basati su Σ (Bellec, 2020): richiede la conoscenza della covarianza di progettazione
Metodo di questo articolo: completamente adattivo, applicabile a funzioni non lisce

Quadro teorico unificato: stabilisce una teoria della differenziabilità unificata per M-stimatori convessi regolarizzati.
Strumento di accordatura pratico: fornisce un metodo di selezione dei parametri adattivo che non richiede conoscenze preliminari.
Garanzie teoriche: prova l'efficacia del metodo sotto ipotesi ragionevoli.

Limitazioni

Ipotesi di progettazione gaussiana: i principali risultati teorici richiedono una matrice di progettazione gaussiana, sebbene le simulazioni mostrino efficacia anche per progettazioni di Rademacher.
Requisito di forte convessità: alcuni risultati richiedono la forte convessità del termine di penalità, sebbene la Sezione 7 fornisca metodi di rilassamento.
Complessità computazionale: per alcune penalità non lisce, la matrice $\hat{A}$ non ha un'espressione in forma chiusa.

Direzioni Future

Estensione a progettazioni non gaussiane
Gestione di classi di funzioni di perdita più generali
Sviluppo di algoritmi di implementazione computazionalmente efficienti

Valutazione Approfondita

Punti di Forza

Contributo teorico significativo: fornisce per la prima volta una teoria delle derivate unificata per M-stimatori generali, colmando un importante vuoto teorico.
Alto valore pratico: il criterio di accordatura proposto è completamente adattivo e ha importanza significativa nelle applicazioni pratiche.
Forte innovazione tecnica: combina abilmente analisi convessa, teoria delle matrici casuali e metodo di Stein.
Verifica sperimentale sufficiente: verifica l'accuratezza delle previsioni teoriche attraverso diverse impostazioni.

Insufficienze

Limitazioni delle ipotesi: l'ipotesi di progettazione gaussiana limita l'universalità del metodo.
Considerazioni computazionali insufficienti: vi è scarsa discussione sulla stabilità numerica e l'efficienza nel calcolo pratico.
Confronti incompleti: i confronti empirici con altri metodi adattivi sono limitati.

Impatto

Impatto teorico: fornisce nuovi strumenti di analisi per la teoria degli M-stimatori ad alta dimensionalità.
Valore pratico: fornisce un metodo pratico per la selezione dei parametri nella regressione robusta.
Contributo metodologico: dimostra come combinare la teoria delle probabilità ad alta dimensionalità con l'inferenza statistica.

Scenari Applicabili

Problemi di regressione robusta ad alta dimensionalità
Analisi di dati con valori anomali o rumore con coda pesante
Applicazioni di apprendimento automatico che richiedono selezione adattiva dei parametri
Settori come finanza e bioinformatica dove è richiesta alta robustezza

Bibliografia

La bibliografia principale include:

Bayati, M. and Montanari, A. (2012). The lasso risk for gaussian matrices.
El Karoui, N. et al. (2013). On robust regression with high-dimensional predictors.
Thrampoulidis, C. et al. (2018). Precise error analysis of regularized m-estimators in high dimensions.
Bellec, P.C. (2020). Out-of-sample error estimate for robust m-estimators with convex penalty.