Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning
Bellec, Shen
This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatβ(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatβ$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatβ(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.
academic
Derivadas y distribución residual de M-estimadores regularizados con aplicación a ajuste adaptativo
Este artículo estudia M-estimadores con funciones de pérdida Lipschitz diferenciables y términos de penalización convexa en modelos lineales con matrices de diseño gaussianas y distribuciones de ruido arbitrarias. Las contribuciones principales incluyen: (1) proporcionar fórmulas generales para las derivadas del M-estimador regularizado β^(y,X) con respecto a y y X, revelando una estructura diferenciable simple compartida por todos los M-estimadores convexos regularizados; (2) utilizar estas derivadas para caracterizar la distribución de los residuos ri=yi−xi⊤β^ en el régimen de dimensión moderada donde la dimensión y el tamaño de la muestra son del mismo orden; (3) proponer un nuevo criterio adaptativo basado en la distribución residual para seleccionar parámetros de ajuste de M-estimadores regularizados, que puede aproximar el error fuera de la muestra sin necesidad de conocer la distribución del ruido o la covarianza del diseño.
En estadística de alta dimensión, los M-estimadores son herramientas importantes para tratar valores atípicos y ruido de colas pesadas. La forma típica de un M-estimador es:
β^(y,X)=argminb∈Rpn1∑i=1nρ(yi−xi⊤b)+g(b)
donde ρ es una función de pérdida convexa (como la pérdida de Huber) y g es un término de penalización convexa (como Elastic-Net).
Dificultad en el ajuste de parámetros: Los métodos de ajuste existentes generalmente requieren conocer la distribución del ruido o la matriz de covarianza del diseño, que a menudo no están disponibles en aplicaciones prácticas.
Comprensión teórica insuficiente: La comprensión teórica de la estructura diferenciable y la distribución residual para M-estimadores generales aún no es lo suficientemente profunda.
Necesidad práctica: Se requiere un criterio de ajuste completamente adaptativo que no dependa de parámetros desconocidos y que pueda seleccionar efectivamente el par óptimo de pérdida-penalización.
Marco unificado de fórmulas de derivadas: Proporciona fórmulas generales para las derivadas con respecto a (y,X) de cualquier M-estimador convexo regularizado, revelando una estructura diferenciable unificada.
Representación estocástica de la distribución residual: En el régimen de dimensión moderada, proporciona una representación estocástica exacta de residuos individuales y resultados de normalidad asintótica.
Criterio de ajuste adaptativo: Propone un criterio de selección de parámetros completamente adaptativo que no requiere conocer la distribución del ruido o la covarianza del diseño.
Nueva relación de grados de libertad efectivos: Establece nuevas conexiones entre las derivadas del M-estimador y los grados de libertad efectivos.
Estructura diferenciable unificada: Por primera vez, establece fórmulas de derivadas unificadas para M-estimadores convexos generales, incluyendo penalizaciones no suave.
Estimación de grados de libertad efectivos: Propone df^/tr[V] como estimador de tr[ΣA^], evitando la dependencia de Σ.
Uso innovador de herramientas probabilísticas: Combina ingeniosamente la fórmula de Stein y técnicas de integración gaussiana para manejar M-estimadores de alta dimensión.
La Figura 2 muestra el histograma y gráfico Q-Q de los residuos estandarizados ζ1, que se ajustan bien a la distribución normal estándar bajo diferentes combinaciones de parámetros, verificando las predicciones teóricas.
La Tabla 1 muestra que los valores de ∣tr[ΣA^]−df^/tr[V]∣ son pequeños (aproximadamente 0.002), confirmando que df^/tr[V] es un buen estimador de tr[ΣA^].
Teoremas 7-8: Demuestran que el estimador seleccionado basado en el criterio de ajuste alcanza con alta probabilidad el error fuera de la muestra óptimo
Este artículo es el primero en utilizar cantidades observables (que dependen únicamente de los datos) para describir el comportamiento del M-estimador, en lugar de depender de distribuciones previas no observables o matrices de covarianza.
Supuesto de diseño gaussiano: Los resultados teóricos principales requieren matrices de diseño gaussianas, aunque las simulaciones muestran efectividad también para diseño de Rademacher.
Requisito de convexidad fuerte: Algunos resultados requieren convexidad fuerte del término de penalización, aunque la Sección 7 proporciona métodos de relajación.
Complejidad computacional: Para algunas penalizaciones no suave, la matriz A^ no tiene expresión de forma cerrada.
Contribución teórica significativa: Por primera vez proporciona teoría de derivadas unificada para M-estimadores generales, llenando un vacío teórico importante.
Alto valor práctico: El criterio de ajuste propuesto es completamente adaptativo y tiene valor importante en aplicaciones prácticas.
Fuerte innovación técnica: Combina ingeniosamente análisis convexo, teoría de matrices aleatorias y método de Stein.
Verificación experimental suficiente: Verifica la precisión de las predicciones teóricas a través de múltiples configuraciones.