2025-11-11T21:07:14.953280

Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation

Qiao, Maros

We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.

academic

Sparse Polyak: 고차원 M-추정을 위한 적응형 스텝 크기 규칙

기본 정보

논문 ID: 2509.09802
제목: Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
저자: Tianqi Qiao (Texas A&M University), Marie Maros (Texas A&M University)
분류: math.OC cs.LG stat.ML
발표 시간/학회: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
논문 링크: https://arxiv.org/abs/2509.09802

초록

본 논문은 Sparse Polyak을 제안하고 연구하며, 이는 Polyak 적응형 스텝 크기의 변형으로 고차원 통계 추정 문제를 해결하기 위해 특별히 설계되었습니다. 여기서 문제의 차원이 표본 크기보다 훨씬 빠르게 증가합니다. 이러한 설정에서 표준 Polyak 스텝 크기는 성능이 저하되어 최적 통계 정확도에 도달하기 위해 점점 더 많은 반복이 필요합니다. 문제가 잘 조건화되어 있거나 달성 가능한 정확도 자체가 문제 규모에 따라 악화되지 않더라도 마찬가지입니다. 본 논문은 이러한 제한을 매끄러움 측정 방식의 불일치에 귀인합니다. 고차원에서는 Lipschitz 매끄러움 상수 추정이 더 이상 유효하지 않습니다. 대신, 문제 관련 특정 방향으로 제한된 매끄러움(제한된 Lipschitz 매끄러움 상수)을 추정하는 것이 더 적절합니다. Sparse Polyak은 스텝 크기를 수정하여 제한된 Lipschitz 매끄러움 상수를 추정함으로써 이 문제를 극복합니다.

연구 배경 및 동기

문제 정의

본 논문은 고차원 통계 추정 문제를 연구합니다:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

여기서 차원 d은 표본 크기 n에 비해 매우 빠르게 증가합니다. 즉, d/n → ∞입니다.

핵심 문제

고차원 도전: 고차원 설정에서 전통적인 Lipschitz 매끄러움 상수 추정이 실패하여 과도하게 보수적인 스텝 크기 선택을 초래합니다.
성능 저하: 표준 Polyak 스텝 크기는 문제 차원이 증가함에 따라 성능이 크게 저하되며, 문제 조건수가 일정하게 유지되더라도 마찬가지입니다.
속도 불변성 부재: 기존 방법은 고정 스텝 크기 IHT와 동일한 수렴 보장을 유지하지 못합니다.

연구 동기

반복 경질 임계값(IHT) 알고리즘은 고차원 희소 복구에서 우수한 성능을 보이지만 제한된 Lipschitz 매끄러움(RSS) 상수 L̄을 알아야 합니다.
기존 적응형 스텝 크기 방법은 고차원 설정에서 이론적 보장과 실제 성능이 부족합니다.
스텝 크기를 적응적으로 조정하면서 속도 불변성을 유지할 수 있는 방법이 필요합니다.

핵심 기여

첫 번째 고차원 적응형 스텝 크기 규칙: 고차원 설정에서 우수한 성능을 보이고 속도 불변성을 유지하는 첫 번째 적응형 스텝 크기 규칙을 제안합니다.
이론적 혁신: 고차원에서 매끄러움 측정의 근본적인 문제를 파악하고 전역 상수가 아닌 제한된 Lipschitz 매끄러움 상수를 추정할 것을 제안합니다.
수렴성 보장: 알려진 최적 고정 스텝 크기와 동등한 선형 수렴 속도를 확립하여 최적 통계 정확도에 도달합니다.
광범위한 적용성: 다양한 통계 모델(로지스틱 회귀, 선형 회귀, 행렬 회귀 등)에 대한 이론적 보장을 제공합니다.
지지 복구: 신호 대 잡음비 조건 하에서 지지 복구 보장을 제공합니다.

방법 상세 설명

작업 정의

제약 최적화 문제를 고려합니다:

min_{θ∈R^d: ||θ||_0≤s} f(θ) = (1/n) Σ_{i=1}^n ℓ(z_i, θ)

여기서:

θ는 최대 s개의 0이 아닌 원소로 제약된 d차원 매개변수 벡터입니다.
f(θ)는 경험적 위험 함수입니다.
목표는 고차원 설정(d/n → ∞)에서 효율적으로 해결하는 것입니다.

핵심 알고리즘: Sparse Polyak 스텝 크기

알고리즘 1: Sparse Polyak 스텝 크기를 사용한 IHT

입력: 함수 f, 목표 함수값 f̂, 희소성 매개변수 s, 반복 횟수 T
초기화: θ_0 ∈ R^d, ||θ_0||_0 ≤ s
for t = 0 to T-1 do:
    스텝 크기 계산: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
    업데이트: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
end for

주요 혁신 포인트

수정된 스텝 크기 공식:
- 전통적 Polyak: γ_t = (f(θ_t) - f̂) / ||∇f(θ_t)||²
- Sparse Polyak: γ_t = (f(θ_t) - f̂) / ||HT_s(∇f(θ_t))||²
경질 임계값 연산자: HT_s는 s개의 최대 크기 성분을 유지하고 나머지는 0으로 설정합니다.
이론적 기초:
- 제한된 강볼록성(RSC)과 제한된 매끄러움(RSS) 조건 활용
- L̄ = L + 3τs, μ̄ = μ - 3τs, κ̄ = L̄/μ̄

기술적 혁신 포인트

차원 무관 스텝 크기: ||∇f(θ_t)||² 대신 ||HT_s(∇f(θ_t))||²를 사용하여 차원 d와 관련된 스케일링을 피합니다.
제한된 방향 추정: 전체 공간이 아닌 희소 방향의 매끄러움에 집중합니다.
이중 루프 알고리즘: 알고리즘 2는 미지의 목표값을 처리하는 경우를 제공합니다.

이론적 분석

주요 정리

정리 1 (주요 수렴 결과): RSC 및 RSS 가정 하에서, s ≥ (240κ̄)²s*일 때:

선형 수렴: ||θ_{t+1} - θ̂||² ≤ (1 - 1/(80κ̄))||θ_t - θ̂||²
최종 정확도: O(||HT_s(∇f(θ̂))||²/μ̄²)

따름정리 1 (지지 복구): 신호 대 잡음비 조건 |θ̂|_min ≥ 7||HT_s(∇f(θ̂))||/μ̄ 하에서 알고리즘은 지지 집합을 정확하게 복구할 수 있습니다.

통계 모델 보장

희소 로지스틱 회귀 (따름정리 2):

수렴 속도: (1 - 1/(80κ̄))
통계적 정확도: O(s log d / n)
확률 보장: 최소 1 - e^{-c_0 n} - 2/d

행렬 회귀 (따름정리 3):

저순위 행렬 복구에 적용 가능
유사한 수렴 보장 및 통계적 정확도

실험 설정

합성 데이터 실험

차원 설정: d ∈ {5000, 10000, 20000}
희소성: s* = 300
표본 크기: n = ⌈α s log d⌉, α = 5
설계 행렬: 시계열 구조, 상관성 매개변수 ω = 0.5
잡음 설정: 선형 회귀 σ² = 0.25, 로지스틱 회귀는 모델(4)에 따라 생성

실제 데이터 실험

선형 회귀: 대규모 파도 에너지 팜 데이터셋(120 표본, 149 특징)
로지스틱 회귀: Molecule Musk 데이터셋(120 표본, 166 특징)
희소성: s = 20

비교 방법

고정 스텝 크기를 사용한 IHT γ = 2/(3L̄)
고전적 Polyak 스텝 크기
그리드 검색으로 최적화된 고정 스텝 크기

실험 결과

주요 결과

속도 불변성 검증:
- Sparse Polyak은 서로 다른 차원 d에서 일관된 수렴 동작을 유지합니다.
- 고전적 Polyak은 차원 증가에 따라 성능이 크게 저하됩니다.
- log(d)/n이 상수로 유지될 때 반복 횟수는 기본적으로 변하지 않습니다.
수렴 속도 비교:
- 고정 스텝 크기 대비 Sparse Polyak은 일반적으로 더 빠르게 수렴합니다.
- 로지스틱 회귀에서 장점이 더 명확합니다(국소 곡률 적응으로 인해).
- 목표값 f̂의 선택은 달성 가능한 정확도에 직접 영향을 미칩니다.
실제 데이터 성능:
- 로지스틱 회귀 작업: Sparse Polyak > 고정 스텝 크기 > 고전적 Polyak
- 선형 회귀 작업: 최적 고정 스텝 크기가 약간 우수하지만 Sparse Polyak은 여전히 고전적 Polyak을 능가합니다.

주요 발견

차원 스케일링 문제: 고차원에서 ||∇f(θ_t)|| ≤ √(d/s)||HT_s(∇f(θ_t))||이며, 최악의 경우 등호가 성립합니다.
스텝 크기 보수성: 전체 기울기 범위를 사용하면 과도하게 보수적인 스텝 크기가 발생하며 d 증가에 따라 악화됩니다.
적응성 장점: 적응형 스텝 크기는 국소 곡률 정보를 활용할 수 있으며 비균일 곡률 문제에서 더 나은 성능을 보입니다.