Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning
Bellec, Shen
This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatβ(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatβ$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatβ(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.
academic
Производные и распределение остатков регуляризованных M-оценок с приложением к адаптивной настройке
В данной работе исследуются M-оценки с функциями потерь, имеющими липшицевы градиенты, и выпуклыми штрафными членами в линейных моделях с гауссовой матрицей плана и произвольным распределением шума. Основные вклады включают: (1) предоставление общих формул для производных регуляризованной M-оценки β^(y,X) по y и X, раскрывающих простую дифференцируемую структуру, общую для всех выпуклых регуляризованных M-оценок; (2) использование этих производных для характеризации распределения остатков ri=yi−xi⊤β^ в среднемерном режиме, когда размерность и объем выборки имеют одинаковый порядок; (3) предложение нового адаптивного критерия, основанного на распределении остатков, для выбора параметра регуляризации M-оценки, который приближает ошибку вне выборки и не требует знания распределения шума или ковариационной матрицы плана.
В высокомерной статистике M-оценки являются важным инструментом для работы с выбросами и шумом с тяжелыми хвостами. Типичная форма M-оценки:
β^(y,X)=argminb∈Rpn1∑i=1nρ(yi−xi⊤b)+g(b)
где ρ — выпуклая функция потерь (например, потери Хьюбера), g — выпуклый штрафной член (например, Elastic-Net).
Сложность настройки параметров: существующие методы настройки обычно требуют знания распределения шума или матрицы ковариации плана, которые часто недоступны в практических приложениях.
Недостаточное теоретическое понимание: теоретическое понимание дифференцируемой структуры и распределения остатков для общих M-оценок остается неполным.
Практические требования: необходим полностью адаптивный критерий настройки, который не зависит от неизвестных параметров и эффективно выбирает оптимальную пару потерь-штрафа.
Единая схема формул производных: предоставление общих формул для производных по (y,X) произвольной выпуклой регуляризованной M-оценки, раскрывающих единую дифференцируемую структуру.
Стохастическое представление распределения остатков: получение точного стохастического представления и результатов асимптотической нормальности для отдельных остатков в среднемерном режиме.
Адаптивный критерий настройки: предложение полностью адаптивного критерия выбора параметров, не требующего знания распределения шума или ковариационной матрицы плана.
Новые связи эффективных степеней свободы: установление новых связей между производными M-оценок и эффективными степенями свободы.
Единая дифференцируемая структура: впервые установлены единые формулы производных для общих выпуклых M-оценок, включая негладкие штрафы.
Оценка эффективных степеней свободы: предложение df^/tr[V] как оценки tr[ΣA^], избегающей зависимости от Σ.
Инновационное использование вероятностных инструментов: умелое применение формулы Стейна и техник гауссовского интегрирования для работы с высокомерными M-оценками.
На рисунке 2 показаны гистограмма и диаграмма Q-Q стандартизованных остатков ζ1, которые хорошо соответствуют стандартному нормальному распределению при различных комбинациях параметров, подтверждая теоретические предсказания.
Впервые используются наблюдаемые величины (зависящие только от данных) для описания поведения M-оценок, а не зависящие от неизвестного априорного распределения или ковариационной матрицы.
Предположение о гауссовом плане: основные теоретические результаты требуют гауссовой матрицы плана, хотя моделирование показывает эффективность и для плана Радемахера.
Требование сильной выпуклости: некоторые результаты требуют сильной выпуклости штрафного члена, хотя раздел 7 предоставляет методы ослабления.
Вычислительная сложность: для некоторых негладких штрафов матрица A^ не имеет замкнутого выражения.