This paper studies M-estimators with gradient-Lipschitz loss function regularized with convex penalty in linear models with Gaussian design matrix and arbitrary noise distribution. A practical example is the robust M-estimator constructed with the Huber loss and the Elastic-Net penalty and the noise distribution has heavy-tails. Our main contributions are three-fold. (i) We provide general formulae for the derivatives of regularized M-estimators $\hatβ(y,X)$ where differentiation is taken with respect to both $y$ and $X$; this reveals a simple differentiability structure shared by all convex regularized M-estimators. (ii) Using these derivatives, we characterize the distribution of the residual $r_i = y_i-x_i^\top\hatβ$ in the intermediate high-dimensional regime where dimension and sample size are of the same order. (iii) Motivated by the distribution of the residuals, we propose a novel adaptive criterion to select tuning parameters of regularized M-estimators. The criterion approximates the out-of-sample error up to an additive constant independent of the estimator, so that minimizing the criterion provides a proxy for minimizing the out-of-sample error. The proposed adaptive criterion does not require the knowledge of the noise distribution or of the covariance of the design. Simulated data confirms the theoretical findings, regarding both the distribution of the residuals and the success of the criterion as a proxy of the out-of-sample error. Finally our results reveal new relationships between the derivatives of $\hatβ(y,X)$ and the effective degrees of freedom of the M-estimator, which are of independent interest.
논문 ID : 2107.05143제목 : Derivatives and residual distribution of regularized M-estimators with application to adaptive tuning저자 : Pierre C. Bellec (Rutgers University), Yiwei Shen (Rutgers University)분류 : math.ST stat.ML stat.TH발표 학회 : Proceedings of Machine Learning Research vol 178:1–36, 2022논문 링크 : https://arxiv.org/abs/2107.05143 본 논문은 가우스 설계 행렬과 임의의 잡음 분포를 갖는 선형 모형에서 기울기 립시츠 손실함수와 볼록 페널티 항을 가진 M-추정량을 연구한다. 주요 기여는 다음과 같다: (1) 정규화 M-추정량 β ^ ( y , X ) \hat{\beta}(y,X) β ^ ( y , X ) 의 y y y 와 X X X 에 대한 도함수의 일반 공식을 제공하여, 모든 볼록 정규화 M-추정량이 공유하는 단순한 미분가능 구조를 밝힘; (2) 이러한 도함수를 활용하여 차원과 표본 크기가 같은 정도의 중간 고차원 영역에서 잔차 r i = y i − x i ⊤ β ^ r_i = y_i-x_i^\top\hat{\beta} r i = y i − x i ⊤ β ^ 의 분포를 특성화; (3) 잔차 분포에 기반하여 정규화 M-추정량의 조정 매개변수를 선택하기 위한 새로운 적응적 준거를 제안하며, 이 준거는 표본 외 오차에 근접하고 잡음 분포나 설계 공분산을 알 필요가 없음.
고차원 통계에서 M-추정량은 이상치와 무거운 꼬리 잡음을 처리하기 위한 중요한 도구이다. 전형적인 M-추정량의 형태는 다음과 같다:
β ^ ( y , X ) = arg min b ∈ R p 1 n ∑ i = 1 n ρ ( y i − x i ⊤ b ) + g ( b ) \hat{\beta}(y,X) = \arg\min_{b\in\mathbb{R}^p} \frac{1}{n}\sum_{i=1}^n \rho(y_i - x_i^\top b) + g(b) β ^ ( y , X ) = arg min b ∈ R p n 1 ∑ i = 1 n ρ ( y i − x i ⊤ b ) + g ( b )
여기서 ρ \rho ρ 는 볼록 손실함수(예: Huber 손실)이고, g g g 는 볼록 페널티 항(예: Elastic-Net)이다.
매개변수 조정의 어려움 : 기존의 조정 방법은 보통 잡음 분포나 설계 공분산 행렬을 알아야 하는데, 실제 응용에서는 종종 이를 얻을 수 없다.이론적 이해의 부족 : 일반적인 M-추정량에 대해 그 미분가능성 구조와 잔차 분포의 이론적 이해가 충분하지 않다.실용성의 필요 : 미지의 매개변수에 의존하지 않으면서도 최적의 손실-페널티 쌍을 효과적으로 선택할 수 있는 완전 자동 조정 준거가 필요하다.대부분의 기존 연구는 제곱 손실에만 국한됨 설계 공분산 행렬 Σ \Sigma Σ 를 알아야 함 비매끄러운 페널티 함수에 대한 이론적 보장 부족 도함수 공식의 통일된 틀 : 임의의 볼록 정규화 M-추정량에 대해 ( y , X ) (y,X) ( y , X ) 의 도함수의 일반 공식을 제공하여 통일된 미분가능 구조를 밝힘.잔차 분포의 확률적 표현 : 중간 고차원 영역에서 개별 잔차의 정확한 확률적 표현과 점근 정규성 결과를 제시.적응적 조정 준거 : 잡음 분포나 설계 공분산을 알 필요 없는 완전 자동 매개변수 선택 준거를 제안.유효 자유도의 새로운 관계 : M-추정량의 도함수와 유효 자유도 사이의 새로운 연결고리를 확립.선형 모형 y = X β ∗ + ε y = X\beta^* + \varepsilon y = X β ∗ + ε 을 고려하며, 여기서:
X ∈ R n × p X \in \mathbb{R}^{n \times p} X ∈ R n × p 의 행 벡터는 N ( 0 , Σ ) N(0,\Sigma) N ( 0 , Σ ) 에서 독립동일분포ε \varepsilon ε 는 X X X 와 독립이며 연속 분포를 가짐차원 p p p 와 표본 크기 n n n 이 같은 정도 거의 모든 ( y , X ) (y,X) ( y , X ) 에 대해, 행렬 A ^ ∈ R p × p \hat{A} \in \mathbb{R}^{p \times p} A ^ ∈ R p × p 가 존재하여:
∂ ∂ y i β ^ ( y , X ) = A ^ X ⊤ e i ψ ′ ( r i ) \frac{\partial}{\partial y_i}\hat{\beta}(y,X) = \hat{A}X^\top e_i \psi'(r_i) ∂ y i ∂ β ^ ( y , X ) = A ^ X ⊤ e i ψ ′ ( r i )
∂ ∂ x i j β ^ ( y , X ) = A ^ e j ψ ( r i ) − A ^ X ⊤ e i ψ ′ ( r i ) β ^ j \frac{\partial}{\partial x_{ij}}\hat{\beta}(y,X) = \hat{A}e_j\psi(r_i) - \hat{A}X^\top e_i \psi'(r_i)\hat{\beta}_j ∂ x ij ∂ β ^ ( y , X ) = A ^ e j ψ ( r i ) − A ^ X ⊤ e i ψ ′ ( r i ) β ^ j
여기서 r i = y i − x i ⊤ β ^ r_i = y_i - x_i^\top\hat{\beta} r i = y i − x i ⊤ β ^ , ψ = ρ ′ \psi = \rho' ψ = ρ ′ , ∥ Σ 1 / 2 A ^ Σ 1 / 2 ∥ o p ≤ ( n μ ) − 1 \|\Sigma^{1/2}\hat{A}\Sigma^{1/2}\|_{op} \leq (n\mu)^{-1} ∥ Σ 1/2 A ^ Σ 1/2 ∥ o p ≤ ( n μ ) − 1 .
각 i = 1 , … , n i = 1,\ldots,n i = 1 , … , n 에 대해, Z i ∼ N ( 0 , 1 ) Z_i \sim N(0,1) Z i ∼ N ( 0 , 1 ) 이 ε i \varepsilon_i ε i 와 독립이어서:
∣ r i + tr [ Σ A ^ ] ψ ( r i ) − ( ε i + ∥ Σ 1 / 2 ( β ^ − β ∗ ) ∥ Z i ) ∣ ≤ O P ( n − 1 / 4 ) ( 오차항 ) \left|r_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) - (\varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i)\right| \leq O_P(n^{-1/4})(\text{오차항}) r i + tr [ Σ A ^ ] ψ ( r i ) − ( ε i + ∥ Σ 1/2 ( β ^ − β ∗ ) ∥ Z i ) ≤ O P ( n − 1/4 ) ( 오차항 )
이는 잔차의 확률적 표현을 제공한다:
r i + tr [ Σ A ^ ] ψ ( r i ) ≈ ε i + ∥ Σ 1 / 2 ( β ^ − β ∗ ) ∥ Z i r_i + \text{tr}[\Sigma\hat{A}]\psi(r_i) \approx \varepsilon_i + \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|Z_i r i + tr [ Σ A ^ ] ψ ( r i ) ≈ ε i + ∥ Σ 1/2 ( β ^ − β ∗ ) ∥ Z i
잔차 분포에 기반하여 조정 준거를 제안한다:
Crit ( ρ , g ) = ∥ r + d f ^ tr [ V ] ψ ( r ) ∥ 2 \text{Crit}(\rho, g) = \left\|r + \frac{\hat{df}}{\text{tr}[V]}\psi(r)\right\|^2 Crit ( ρ , g ) = r + tr [ V ] df ^ ψ ( r ) 2
여기서:
r = y − X β ^ ρ , g r = y - X\hat{\beta}_{\rho,g} r = y − X β ^ ρ , g d f ^ = tr [ X ( ∂ / ∂ y ) β ^ ρ , g ] \hat{df} = \text{tr}[X(\partial/\partial y)\hat{\beta}_{\rho,g}] df ^ = tr [ X ( ∂ / ∂ y ) β ^ ρ , g ] V = diag { ψ ′ ( r ) } ( I n − X ( ∂ / ∂ y ) β ^ ρ , g ) V = \text{diag}\{\psi'(r)\}(I_n - X(\partial/\partial y)\hat{\beta}_{\rho,g}) V = diag { ψ ′ ( r )} ( I n − X ( ∂ / ∂ y ) β ^ ρ , g ) 통일된 미분가능 구조 : 처음으로 일반 볼록 M-추정량에 대해 통일된 도함수 공식을 확립하며, 비매끄러운 페널티를 포함.유효 자유도 추정 : d f ^ / tr [ V ] \hat{df}/\text{tr}[V] df ^ / tr [ V ] 를 tr [ Σ A ^ ] \text{tr}[\Sigma\hat{A}] tr [ Σ A ^ ] 의 추정량으로 제안하여 Σ \Sigma Σ 에 대한 의존성을 회피.확률론적 도구의 혁신적 사용 : Stein 공식과 가우스 적분 기법을 교묘하게 활용하여 고차원 M-추정량을 처리.표본 크기 : n = 1001 n = 1001 n = 1001 , 차원 : p = 1000 p = 1000 p = 1000 설계 행렬 : X X X 의 행은 N ( 0 , Σ ) N(0,\Sigma) N ( 0 , Σ ) 에서 독립동일분포, 여기서 Σ = R ⊤ R / ( 2 p ) \Sigma = R^\top R/(2p) Σ = R ⊤ R / ( 2 p ) , R R R 은 Rademacher 행렬참 매개변수 : β ∗ \beta^* β ∗ 의 처음 100개 성분은 10 / 10 \sqrt{10}/10 10 /10 , 나머지는 0잡음 : ε i \varepsilon_i ε i 는 자유도 2인 t-분포에서 독립동일분포 (무거운 꼬리)Huber-Elastic-Net 추정량 사용:
손실함수 : ρ ( u ; Λ ) = Λ 2 H ( Λ − 1 u ) \rho(u;\Lambda) = \Lambda^2 H(\Lambda^{-1}u) ρ ( u ; Λ ) = Λ 2 H ( Λ − 1 u ) , 여기서 H H H 는 Huber 손실페널티 항 : g ( b ; λ , τ ) = λ ∥ b ∥ 1 + ( τ / 2 ) ∥ b ∥ 2 2 g(b;\lambda,\tau) = \lambda\|b\|_1 + (\tau/2)\|b\|_2^2 g ( b ; λ , τ ) = λ ∥ b ∥ 1 + ( τ /2 ) ∥ b ∥ 2 2 표본 외 오차: ∥ Σ 1 / 2 ( β ^ − β ∗ ) ∥ 2 \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2 ∥ Σ 1/2 ( β ^ − β ∗ ) ∥ 2 조정 준거의 근사 오차 잔차 정규성 검정 그림 1은 ( λ , τ ) (\lambda,\tau) ( λ , τ ) 격자에서 다음을 보여준다:
참 표본 외 오차 ∥ Σ 1 / 2 ( β ^ − β ∗ ) ∥ 2 \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2 ∥ Σ 1/2 ( β ^ − β ∗ ) ∥ 2 조정 준거의 근사 ∥ r + ( d f ^ / tr [ V ] ) ψ ( r ) ∥ 2 / n − ∥ ε ∥ 2 / n \|r + (\hat{df}/\text{tr}[V])\psi(r)\|^2/n - \|\varepsilon\|^2/n ∥ r + ( df ^ / tr [ V ]) ψ ( r ) ∥ 2 / n − ∥ ε ∥ 2 / n 근사 오차 결과는 조정 준거가 표본 외 오차의 상대적 크기를 정확하게 근사할 수 있음을 보여준다.
그림 2는 표준화 잔차 ζ 1 \zeta_1 ζ 1 의 히스토그램과 QQ 플롯을 보여주며, 다양한 매개변수 조합에서 표준 정규분포를 잘 따르고 있어 이론적 예측을 검증한다.
표 1은 ∣ tr [ Σ A ^ ] − d f ^ / tr [ V ] ∣ |\text{tr}[\Sigma\hat{A}] - \hat{df}/\text{tr}[V]| ∣ tr [ Σ A ^ ] − df ^ / tr [ V ] ∣ 의 값이 매우 작음(약 0.002)을 보여주며, d f ^ / tr [ V ] \hat{df}/\text{tr}[V] df ^ / tr [ V ] 가 tr [ Σ A ^ ] \text{tr}[\Sigma\hat{A}] tr [ Σ A ^ ] 의 좋은 추정량임을 확인한다.
정리 7-8 : 조정 준거에 기반하여 선택된 추정량이 높은 확률로 최적 표본 외 오차를 달성함을 증명정리 9 : E [ ∣ tr [ Σ A ^ ] tr [ V ] / n − d f ^ / n ∣ ] ≤ C ( γ , μ ) n − 1 / 2 E[|\text{tr}[\Sigma\hat{A}]\text{tr}[V]/n - \hat{df}/n|] \leq C(γ,μ)n^{-1/2} E [ ∣ tr [ Σ A ^ ] tr [ V ] / n − df ^ / n ∣ ] ≤ C ( γ , μ ) n − 1/2 정리 6 : ∥ Σ 1 / 2 ( β ^ − β ∗ ) ∥ 2 + ∥ ε ∥ 2 / n = ( 1 + O P ( n − 1 / 2 ) ) ∥ r + tr [ Σ A ^ ] ψ ( r ) ∥ 2 / n \|\Sigma^{1/2}(\hat{\beta}-\beta^*)\|^2 + \|\varepsilon\|^2/n = (1+O_P(n^{-1/2}))\|r + \text{tr}[\Sigma\hat{A}]\psi(r)\|^2/n ∥ Σ 1/2 ( β ^ − β ∗ ) ∥ 2 + ∥ ε ∥ 2 / n = ( 1 + O P ( n − 1/2 )) ∥ r + tr [ Σ A ^ ] ψ ( r ) ∥ 2 / n 본 논문은 다음 연구에 기반한다:
Bayati & Montanari (2012) : LASSO의 위험 분석El Karoui et al. (2013) : 페널티 없는 M-추정량의 연구Thrampoulidis et al. (2018) : 일반 손실-페널티 쌍의 정확한 오차 분석기존 방법과의 비교:
ALO 준거 (Rad et al., 2020) : 2차 연속 미분가능성 가정 필요Σ \Sigma Σ 기반 준거 (Bellec, 2020) : 설계 공분산을 알아야 함본 논문 방법 : 완전 자동이며 비매끄러운 함수에 적용 가능본 논문은 처음으로 관측 가능한 량(데이터에만 의존)을 사용하여 M-추정량의 행동을 기술하며, 미지의 사전 분포나 공분산 행렬에 의존하지 않는다.
통일된 이론 틀 : 볼록 정규화 M-추정량에 대한 통일된 미분가능성 이론을 확립.실용적 조정 도구 : 사전 지식이 필요 없는 자동 매개변수 선택 방법 제공.이론적 보장 : 합리적인 가정 하에서 방법의 유효성을 증명.가우스 설계 가정 : 주요 이론 결과는 가우스 설계 행렬을 필요로 하지만, 시뮬레이션은 Rademacher 설계에도 유효함을 보여줌.강볼록성 요구 : 일부 결과는 페널티 항의 강볼록성을 필요로 하지만, 제7절에서 완화 방법 제공.계산 복잡성 : 일부 비매끄러운 페널티에 대해 행렬 A ^ \hat{A} A ^ 는 폐형식 표현이 없음.비가우스 설계로의 확장 더 일반적인 손실함수 클래스 처리 계산 효율적인 구현 알고리즘 개발 이론적 기여 현저함 : 처음으로 일반 M-추정량에 대한 통일된 도함수 이론을 제공하여 중요한 이론적 공백을 채움.실용적 가치 높음 : 제안된 조정 준거는 완전 자동이며 실제 응용에서 중요한 가치를 가짐.기술적 혁신성 강함 : 볼록 분석, 확률 행렬 이론, Stein 방법을 교묘하게 결합.실험 검증 충분함 : 다양한 설정에서 이론적 예측의 정확성을 검증.가정의 제한성 : 가우스 설계 가정이 방법의 보편성을 제한.계산 고려 부족 : 실제 계산에서의 수치 안정성과 효율성에 대한 논의 부족.비교 불충분 : 다른 자동 방법과의 경험적 비교 제한적.이론적 영향 : 고차원 M-추정량 이론에 새로운 분석 도구 제공.실무 가치 : 강건 회귀에서 매개변수 선택을 위한 실용적 방법 제공.방법론적 기여 : 고차원 확률론과 통계 추론을 결합하는 방법 제시.고차원 강건 회귀 문제 이상치나 무거운 꼬리 잡음이 있는 데이터 분석 자동 매개변수 선택이 필요한 기계학습 응용 금융, 생물정보학 등 강건성이 중요한 분야 주요 참고문헌:
Bayati, M. and Montanari, A. (2012). The lasso risk for gaussian matrices. El Karoui, N. et al. (2013). On robust regression with high-dimensional predictors. Thrampoulidis, C. et al. (2018). Precise error analysis of regularized m-estimators in high dimensions. Bellec, P.C. (2020). Out-of-sample error estimate for robust m-estimators with convex penalty.