Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
Qiao, Maros
We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.
본 논문은 Sparse Polyak을 제안하고 연구하며, 이는 Polyak 적응형 스텝 크기의 변형으로 고차원 통계 추정 문제를 해결하기 위해 특별히 설계되었습니다. 여기서 문제의 차원이 표본 크기보다 훨씬 빠르게 증가합니다. 이러한 설정에서 표준 Polyak 스텝 크기는 성능이 저하되어 최적 통계 정확도에 도달하기 위해 점점 더 많은 반복이 필요합니다. 문제가 잘 조건화되어 있거나 달성 가능한 정확도 자체가 문제 규모에 따라 악화되지 않더라도 마찬가지입니다. 본 논문은 이러한 제한을 매끄러움 측정 방식의 불일치에 귀인합니다. 고차원에서는 Lipschitz 매끄러움 상수 추정이 더 이상 유효하지 않습니다. 대신, 문제 관련 특정 방향으로 제한된 매끄러움(제한된 Lipschitz 매끄러움 상수)을 추정하는 것이 더 적절합니다. Sparse Polyak은 스텝 크기를 수정하여 제한된 Lipschitz 매끄러움 상수를 추정함으로써 이 문제를 극복합니다.
입력: 함수 f, 목표 함수값 f̂, 희소성 매개변수 s, 반복 횟수 T
초기화: θ_0 ∈ R^d, ||θ_0||_0 ≤ s
for t = 0 to T-1 do:
스텝 크기 계산: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
업데이트: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
end for