2025-11-23T19:58:17.144226

Bayesian Double Descent

Polson, Sokolov

Double descent is a phenomenon of over-parameterized statistical models such as deep neural networks which have a re-descending property in their risk function. As the complexity of the model increases, risk exhibits a U-shaped region due to the traditional bias-variance trade-off, then as the number of parameters equals the number of observations and the model becomes one of interpolation where the risk can be unbounded and finally, in the over-parameterized region, it re-descends -- the double descent effect. Our goal is to show that this has a natural Bayesian interpretation. We also show that this is not in conflict with the traditional Occam's razor -- simpler models are preferred to complex ones, all else being equal. Our theoretical foundations use Bayesian model selection, the Dickey-Savage density ratio, and connect generalized ridge regression and global-local shrinkage methods with double descent. We illustrate our approach for high dimensional neural networks and provide detailed treatments of infinite Gaussian means models and non-parametric regression. Finally, we conclude with directions for future research.

academic

베이지안 이중 하강

기본 정보

논문 ID: 2507.07338
제목: Bayesian Double Descent
저자: Nick Polson (University of Chicago Booth School), Vadim Sokolov (George Mason University)
분류: stat.ML cs.LG stat.CO
발표 시간: 초안: 2024년 12월 25일; 현재 버전: 2025년 10월 16일
논문 링크: https://arxiv.org/abs/2507.07338

초록

이중 하강(Double descent)은 과매개변수화된 통계 모델(예: 심층 신경망)이 위험 함수에서 나타내는 재하강 특성이다. 모델 복잡도가 증가함에 따라 위험 함수는 전통적인 편향-분산 트레이드오프로 인해 U자형 영역을 나타내고, 매개변수 수가 관측치 수와 같을 때 모델이 보간 모델이 되어 위험이 무한할 수 있으며, 마지막으로 과매개변수화 영역에서 다시 하강한다. 이것이 이중 하강 효과이다. 본 논문의 목표는 이 현상이 자연스러운 베이지안 해석을 가지며, 전통적인 오캄의 면도날 원리와 충돌하지 않음을 증명하는 것이다. 이론적 기초는 베이지안 모델 선택, Dickey-Savage 밀도비를 사용하며, 일반화된 능선 회귀와 전역-국소 수축 방법을 이중 하강과 연결한다.

연구 배경 및 동기

핵심 문제

이중 하강 현상의 베이지안 해석 부재: 이중 하강 현상은 주로 빈도주의 관점에서 연구되며, 체계적인 베이지안 이론 프레임워크가 부족하다
오캄의 면도날과 이중 하강의 표면적 충돌: 베이지안 방법은 단순한 모델을 선호하지만, 이중 하강은 복잡한 모델이 더 나을 수 있음을 시사한다
과매개변수화 모델의 이론적 이해 부족: 매개변수 수가 표본 수를 초과할 때 전통적 통계 이론이 실패한다

연구의 중요성

이론적 통일: 이중 하강 현상에 대한 통일된 베이지안 이론 프레임워크 제공
실무 지침: 심층 학습 등 현대 기계 학습 방법에 대한 이론적 지원 제공
방법론적 기여: 고전 통계 이론과 현대 기계 학습 실무 연결

기존 방법의 한계

빈도주의 관점의 한계: 기존 연구는 주로 최소 L2 노름 추정기에 초점을 맞추고 사전 정규화의 역할을 간과한다
BIC 근사 실패: p > n일 때 라플라스 근사(BIC)의 성능이 저하된다
경험적 위험 한계 무효: 보간기의 경우 경험적 위험이 0이므로 전통적 한계가 의미를 잃는다

핵심 기여

이중 하강의 베이지안 이론 프레임워크 수립: 조건부 사전 p(θ_M|M)이 이중 하강 현상을 주도하는 핵심 요소임을 증명
오캄의 면도날 역설 해결: 베이지안 오캄의 면도날과 이중 하강 현상이 충돌하지 않음을 증명
고전 방법과 현대 기술 연결: 일반화된 능선 회귀, 전역-국소 수축 방법을 이중 하강과 연결
계산 동등성 정리 제공: Dickey-Savage 밀도비를 통해 중첩 모델의 계산 동등성 실현
신경망으로 확장: 이론 프레임워크를 고차원 신경망 회귀에 적용

방법 상세 설명

작업 정의

과매개변수화된 회귀 모델에서 위험 함수의 행동을 연구하며, 특히 모델 복잡도 M이 변할 때 베이지안 위험 R(M)의 이중 하강 현상을 연구한다:

베이지안 이중 하강 정의: R(M) = E_{y,θ|M}(θ̂_M(y) - θ)²를 모델 M 하에서 추정기의 조건부 사전 베이지안 위험이라 하면, M > n일 때 R(M)은 재하강 행동을 나타낸다.

이론적 프레임워크

1. 베이지안 모델 복잡도 프레임워크

결합 사후 분해:

P(θ_M, M | D) = P(θ_M | M, D)P(M | D)

증거(주변 우도):

p(D|M) = ∫_{Θ_M} p(D | θ_M, M)p(θ_M|M)dθ_M

핵심 통찰: 조건부 사전 p(θ_M|M)은 주변화 과정을 통해 베이지안 위험에 영향을 미치며, 과매개변수화 영역에서 암묵적 정규화 역할을 한다.

2. 모델 중첩과 계산 동등성 정리

정리 3.1(모델 중첩과 계산 동등성): 일관성 조건 하에서:

p(θ_m|m) = p(θ_m|θ_{m+1:M} = 0, y)
p(y|θ_m, m) = p(y|θ_m, θ_{m+1:M} = 0)

과매개변수화된 완전 모델 M에서 부분 모델 m의 함수 추정을 계산할 수 있다:

f̂_m(x) = E[f̂_m(x)|θ_{m+1:M} = 0, M, y]

Dickey-Savage 밀도비:

p(y|m)/p(y|M) = p(θ_{m+1:M} = 0|y, M)/p(θ_{m+1:M} = 0|M)

3. BIC 근사의 한계

p < n일 때 라플라스 근사는 다음을 제공한다:

log p(D|M) ≈ log p(D|θ̂, M) - (k/2)log n

그러나 p > n일 때 이 근사는 실패하며, 사전 p(θ|M)이 베이지안 위험에 미치는 영향이 현저해진다.

일반화된 능선 회귀 연결

직교 분해 표현

설계 행렬 X의 SVD 분해: PXTXQ = Λ²에서:

γ*_i = (λ²_i)/(λ²_i + k_i) γ̂_i

여기서 k_i는 국소 수축 매개변수이며, 전역-국소 수축 모델의 국소 척도에 해당한다.

최적 수축 매개변수

주변 우도 z_i|k_i, σ²를 최적화하여:

k̂_i = (λ²_i σ²)/(z²_i - σ²) for z²_i > σ²

신경망 확장

계층적 베이지안 규범:

y_i = Σ_{j=1}^M θ_j φ_j(x_i; w) + ε_i
θ_j ~ N(0, σ²_j)
w ~ p(w)
σ²_j ~ p(σ²_j)

이는 베이지안 모델 선택 프레임워크를 유지하면서 기저 함수를 적응적으로 학습할 수 있게 한다.

실험 설정

다항식 회귀 실험

데이터 생성:

참 함수: y_i = sin(5x_i) + ε, ε ~ N(0, 0.3²)
표본 크기: n = 20
모델 복잡도: d = 1, 2, ..., 50

기저 함수 선택: 수치적으로 안정적인 직교 기저를 제공하는 르장드르 다항식 기저 함수 사용

추정 방법: 과매개변수화 시 최소 노름 해를 제공하는 Moore-Penrose 의사 역행렬 사용

베이지안 다항식 회귀

Young 방법:

사전: C = diag(δ², τ²/λ²₁, ..., τ²/λ²_q)
사후: θ | D, σ², C ~ N(θ̂_post, Σ_post)

Deaton 방법:

순서 제약: σ²₀ ≥ σ²₁ ≥ ... ≥ σ²_p
등조 회귀(PAVA)로 제약 없는 MAP 추정 조정

실험 결과

이중 하강 현상 검증

세 가지 단계:

고전 영역(d < 5): 복잡도 증가로 편향과 테스트 오류 감소
보간 위기(d ≈ n = 20): 테스트 오류가 최고조에 도달, 모델이 훈련 데이터를 완벽하게 적합하지만 일반화 성능 저하
과매개변수화 영역(d > 30): 테스트 오류 재하강, 극단적 과매개변수화가 일반화 개선

주요 발견

암묵적 정규화 효과: 최소 노름 해는 과매개변수화 설정에서 단순 함수로의 암묵적 편향을 가진다
베이지안 우위: 적절한 사전 규범을 통해 베이지안 방법은 모든 영역에서 우수한 성능을 보인다
계산 효율성: 시간 소모적인 모델 선택을 피하면서 가능한 최대 모델을 직접 사용할 수 있다

주변 우도 행동

참 다항식 차수 p_true = 10인 모델의 경우, 주변 우도는 해당 복잡도에서 최고조에 도달하여 베이지안 오캄의 면도날의 유효성을 검증한다.

결론 및 토의

주요 결론

이론적 통일: 이중 하강 현상은 조건부 사전 p(θ_M|M)에 의해 주도되는 자연스러운 베이지안 해석을 가진다
오캄의 면도날 호환성: 주변 우도는 여전히 단순한 모델을 선호하지만, 조건부 사전은 과매개변수화 영역에서 양호한 위험 특성을 제공할 수 있다
실무 지침: 베이지안 프레임워크의 자동 정규화에 의존하면서 가능한 최대 모델을 사용할 것을 권장한다

한계

사전 규범 도전: 복잡한 공간에서 결합 매개변수 사전을 지정해야 한다
계산 복잡성: 신경망 기저 함수의 주변 우도 계산이 어렵다
이론적 격차: 고차원 경우의 완전한 이론 분석이 여전히 필요하다

향후 방향

적응적 사전: 데이터 구조에 자동으로 조정되는 사전 규범 개발
심층 학습 확장: 프레임워크를 매개변수 수가 표본 수를 훨씬 초과하는 심층 학습으로 확장
계산 방법: 고차원 설정에서 효율적인 근사 추론 기법 개발

심층 평가

장점

이론적 혁신: 이중 하강 현상에 대한 체계적인 베이지안 이론 프레임워크를 처음 제공
문제 해결: 오캄의 면도날과 이중 하강의 표면적 충돌을 우아하게 해결
방법 연결: 고전 통계 방법과 현대 기계 학습을 성공적으로 연결
충분한 실험: 다항식 회귀를 통해 이론 예측을 명확하게 시연

부족한 점

응용 한계: 주로 상대적으로 단순한 회귀 설정에 제한되며, 심층 학습 응용은 여전히 발전 필요
계산 도전: 고차원 경우의 실제 계산이 여전히 어렵다
사전 민감성: 방법의 성공은 적절한 사전 선택에 크게 의존한다

영향력

이론적 기여: 현대 기계 학습 현상을 이해하기 위한 중요한 베이지안 관점 제공
실용적 가치: 과매개변수화 모델 사용에 대한 이론적 지원 제공
연구 영감: 베이지안 방법의 현대 기계 학습에서의 새로운 응용 방향 개척

적용 시나리오

회귀 문제: 특히 고차원 회귀와 함수 근사
모델 선택: 여러 복잡도 수준 간 선택이 필요한 시나리오
불확실성 정량화: 예측과 불확실성 추정을 동시에 필요로 하는 응용

참고 문헌

본 논문은 다양한 중요 문헌을 인용하며, 다음을 포함한다:

Belkin et al. (2019): 이중 하강 현상의 획기적 연구
MacKay (1992): 베이지안 보간의 고전 문헌
Polson & Scott (2012): 전역-국소 수축 방법
Young (1977), Deaton (1980): 베이지안 다항식 회귀의 초기 연구

이 논문은 이론적으로 중요한 의미를 가지며, 현대 기계 학습의 이중 하강 현상을 이해하기 위한 새로운 베이지안 관점을 제공한다. 실제 응용 측면에서는 여전히 도전 과제가 있지만, 향후 연구를 위한 견고한 이론적 기초를 마련한다.