We derive a novel deterministic equivalence for the two-point function of a random matrix resolvent. Using this result, we give a unified derivation of the performance of a wide variety of high-dimensional linear models trained with stochastic gradient descent. This includes high-dimensional linear regression, kernel regression, and linear random feature models. Our results include previously known asymptotics as well as novel ones.
논문 ID : 2502.05074제목 : Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models저자 : Alexander Atanasov, Blake Bordelon, Jacob A. Zavatone-Veth, Courtney Paquette, Cengiz Pehlevan (Harvard University, McGill University 등 소속)분류 : cond-mat.dis-nn, cs.LG, stat.ML발표 시간 : arXiv v3, 2025년 11월 10일논문 링크 : https://arxiv.org/abs/2502.05074v3 본 논문은 확률 행렬 해석 연산자(resolvent)의 두 점 함수에 대한 새로운 결정론적 등가성(deterministic equivalence) 이론을 제시한다. 이 결과를 바탕으로 저자들은 확률적 경사 하강법(SGD) 훈련 하에서 고차원 선형 모델의 다양한 성능을 통일적으로 유도했다. 여기에는 고차원 선형 회귀, 커널 회귀, 선형 확률적 특징 모델이 포함된다. 연구 결과는 알려진 점근 거동과 새로운 이론적 발견을 모두 포함한다.
현대 심층 학습에는 핵심적인 현상이 존재한다: 모델 성능이 데이터 규모, 모델 크기, 계산량의 증가에 따라 예측 가능한 멱법칙 거동(신경 스케일링 법칙)을 보인다. 이러한 스케일링 거동의 이론적 기초를 이해하는 것은 기계 학습 이론의 중요한 과제이다.
통일된 이론 프레임워크의 필요성 : 기존 연구는 서로 다른 방법(동적 평균장 이론 DMFT, 결정론적 등가성 기법)을 통해 유한 너비, 유한 데이터, SGD 노이즈 등의 효과를 개별적으로 연구했으나, 통일된 프레임워크가 부족하다.동역학 거동의 이해 부족 : 대부분의 이론 분석은 정적(무한 시간) 극한에 집중되어 있으며, 훈련 동역학 과정에 대한 이해가 불충분하다.비교환성 문제 : 데이터 공분산 행렬 Σ, 경험적 공분산 Σ̂, 확률적 특징 행렬 FF⊤이 교환 가능하지 않을 때, 전통적인 단일 점 결정론적 등가성 방법이 작동하지 않는다.단일 점 결정론적 등가성 : 행렬이 교환 가능한 경우(예: 무한 데이터 P→∞ 또는 확률적 특징이 없는 선형 회귀)만 처리 가능DMFT 방법 : 일반적인 경우를 처리할 수 있지만 기술적 복잡도가 높고 확률 행렬 이론과의 직접적 연결이 부족분산된 결과 : 서로 다른 연구가 다양한 기법을 사용하여 부분적 결과를 얻었으나, 통일된 수학적 프레임워크가 없다.본 논문은 두 점 결정론적 등가성 이론을 개발함으로써, SGD의 고차원 선형 모델에서의 완전한 동역학 거동(유한 데이터, 유한 모델 크기, SGD 노이즈의 결합 효과 포함)을 분석하기 위한 통일된 수학적 프레임워크를 제공하는 것을 목표로 한다.
새로운 두 점 결정론적 등가성 이론 : 확률 행렬 해석 연산자가 서로 다른 매개변수(λ, λ')에서의 두 점 함수에 대한 결정론적 등가성 공식을 처음으로 체계적으로 유도통일된 동역학 분석 프레임워크 : SGD 동역학을 경사 흐름 항(forcing term)과 SGD 커널 항(kernel term)으로 분해하고, 푸리에 변환을 통해 주파수 영역에서 분석기존 결과의 복원 및 확장 :Bordelon 등16 이 DMFT를 통해 얻은 결과 복원 Paquette 등17 이 단일 점 결정론적 등가성을 사용하여 얻은 결과 복원 공변량 이동(covariate shift) 등 새로운 시나리오로 확장 자유 확률 이론과의 연결 : 동역학 시스템에서 S-변환의 응답 함수로서의 새로운 해석을 드러내고, 결정론적 등가성과 DMFT 사이의 다리 구축평면 그래프 전개 기법 : 평면 그래프 전개와 자유 누적량(free cumulants)을 활용하여 두 점 등가성 공식을 체계적으로 유도두 가지 모델 클래스를 고려한다:
1. 선형 회귀 :
f ( x ) = x ⊤ w f(x) = x^\top w f ( x ) = x ⊤ w
2. 선형 확률적 특징 모델 :
f ( x ) = x ⊤ F v = w ⊤ x , w = F v f(x) = x^\top Fv = w^\top x, \quad w = Fv f ( x ) = x ⊤ F v = w ⊤ x , w = F v
여기서:
입력 x ∈ R D ∼ N ( 0 , Σ ) x \in \mathbb{R}^D \sim \mathcal{N}(0, \Sigma) x ∈ R D ∼ N ( 0 , Σ ) 확률적 특징 행렬 F ∈ R D × N F \in \mathbb{R}^{D \times N} F ∈ R D × N , 원소는 i.i.d. ∼ N ( 0 , 1 / N ) \sim \mathcal{N}(0, 1/N) ∼ N ( 0 , 1/ N ) 레이블은 교사 모델에서 생성: y μ = w ˉ ⊤ x μ + ϵ μ y_\mu = \bar{w}^\top x_\mu + \epsilon_\mu y μ = w ˉ ⊤ x μ + ϵ μ , 여기서 ϵ μ ∼ N ( 0 , σ ϵ 2 ) \epsilon_\mu \sim \mathcal{N}(0, \sigma_\epsilon^2) ϵ μ ∼ N ( 0 , σ ϵ 2 ) 훈련 목표 : 경험적 위험 최소화
R ^ = 1 P ∑ μ = 1 P ( y μ − f ( x μ ) ) 2 \hat{R} = \frac{1}{P}\sum_{\mu=1}^P (y_\mu - f(x_\mu))^2 R ^ = P 1 ∑ μ = 1 P ( y μ − f ( x μ ) ) 2
SGD 업데이트를 통해(배치 크기 B, 학습률 η):
v t + 1 = v t − η ∇ v R ^ B t v_{t+1} = v_t - \eta \nabla_v \hat{R}_{B_t} v t + 1 = v t − η ∇ v R ^ B t
성능 측정 :
훈련 손실: R ^ t = Δ w t ⊤ Σ ^ Δ w t \hat{R}_t = \Delta w_t^\top \hat{\Sigma} \Delta w_t R ^ t = Δ w t ⊤ Σ ^ Δ w t 테스트 손실: R t = Δ w t ⊤ Σ Δ w t R_t = \Delta w_t^\top \Sigma \Delta w_t R t = Δ w t ⊤ ΣΔ w t 여기서 Δ w t = w ˉ − w t \Delta w_t = \bar{w} - w_t Δ w t = w ˉ − w t 가중치 차이의 2차 모멘트 C t = E B t [ Δ w t Δ w t ⊤ ] C_t = \mathbb{E}_{B_t}[\Delta w_t \Delta w_t^\top] C t = E B t [ Δ w t Δ w t ⊤ ] 를 추적함으로써, 연속 시간 극한에서 Volterra 적분 방정식을 얻는다:
C t ≃ e − η t F F ⊤ Σ ^ w ˉ w ˉ ⊤ e − η t Σ ^ F F ⊤ + χ ∫ 0 t e − 2 ( t − s ) F F ⊤ Σ ^ F F ⊤ Σ ^ F F ⊤ Tr [ C s Σ ^ ] d s C_t \simeq e^{-\eta t FF^\top \hat{\Sigma}} \bar{w}\bar{w}^\top e^{-\eta t \hat{\Sigma}FF^\top} + \chi \int_0^t e^{-2(t-s)FF^\top\hat{\Sigma}} FF^\top \hat{\Sigma} FF^\top \text{Tr}[C_s\hat{\Sigma}]ds C t ≃ e − η tF F ⊤ Σ ^ w ˉ w ˉ ⊤ e − η t Σ ^ F F ⊤ + χ ∫ 0 t e − 2 ( t − s ) F F ⊤ Σ ^ F F ⊤ Σ ^ F F ⊤ Tr [ C s Σ ^ ] d s
여기서 χ = η / B \chi = \eta/B χ = η / B 는 SGD 온도 매개변수이다.
테스트 손실은 다음과 같이 분해될 수 있다:
R t = w ˉ ⊤ e − t Σ ^ F F ⊤ Σ e − t F F ⊤ Σ ^ w ˉ ⏟ F ( t ) - 경사 흐름 항 + χ ∫ 0 t tr [ e − 2 ( t − s ) F F ⊤ Σ ^ F F ⊤ Σ ^ F F ⊤ Σ ] ⏟ K ( t − s ) - SGD 커널 항 R ^ s d s R_t = \underbrace{\bar{w}^\top e^{-t\hat{\Sigma}FF^\top} \Sigma e^{-tFF^\top\hat{\Sigma}} \bar{w}}_{F(t) \text{ - 경사 흐름 항}} + \underbrace{\chi \int_0^t \text{tr}[e^{-2(t-s)FF^\top\hat{\Sigma}}FF^\top\hat{\Sigma}FF^\top\Sigma]}_{K(t-s) \text{ - SGD 커널 항}} \hat{R}_s ds R t = F ( t ) - 경사 흐름 항 w ˉ ⊤ e − t Σ ^ F F ⊤ Σ e − tF F ⊤ Σ ^ w ˉ + K ( t − s ) - SGD 커널 항 χ ∫ 0 t tr [ e − 2 ( t − s ) F F ⊤ Σ ^ F F ⊤ Σ ^ F F ⊤ Σ ] R ^ s d s
핵심 통찰 : 푸리에 공간에서, 모든 확률성은 해석 연산자의 곱을 통해 진입한다:
F ( ω , ω ′ ) = w ˉ ⊤ ( Σ ^ F F ⊤ + i ω ) − 1 Σ ( F F ⊤ Σ ^ + i ω ′ ) − 1 w ˉ F(\omega, \omega') = \bar{w}^\top (\hat{\Sigma}FF^\top + i\omega)^{-1} \Sigma (FF^\top\hat{\Sigma} + i\omega')^{-1} \bar{w} F ( ω , ω ′ ) = w ˉ ⊤ ( Σ ^ F F ⊤ + iω ) − 1 Σ ( F F ⊤ Σ ^ + i ω ′ ) − 1 w ˉ
행렬이 교환 가능하지 않을 때, 서로 다른 주파수 ( ω , ω ′ ) (\omega, \omega') ( ω , ω ′ ) 에서의 두 점 함수를 평가해야 한다.
확률 행렬 ( λ + A B ) − 1 M ( λ ′ + B A ) − 1 (λ+AB)^{-1}M(λ'+BA)^{-1} ( λ + A B ) − 1 M ( λ ′ + B A ) − 1 에 대해, 여기서 A, M은 결정론적 행렬이고 B는 A와 자유인 백색 Wishart 행렬이다. 결정론적 등가성이 성립한다:
( λ + A B ) − 1 M ( λ ′ + B A ) − 1 ≃ S B S B ′ [ G A M G A ′ + G A A G A ′ q tr [ A G A M G A ′ ] 1 − q df 2 ( κ , κ ′ ) ] (λ+AB)^{-1}M(λ'+BA)^{-1} \simeq S_B S'_B \left[ G_A M G'_A + G_A A G'_A \frac{q \text{tr}[AG_A M G'_A]}{1 - q \text{df}_2(\kappa, \kappa')} \right] ( λ + A B ) − 1 M ( λ ′ + B A ) − 1 ≃ S B S B ′ [ G A M G A ′ + G A A G A ′ 1 − q df 2 ( κ , κ ′ ) q tr [ A G A M G A ′ ] ]
여기서:
S B = S B ( df 1 A B ( λ ) ) S_B = S_B(\text{df}_1^{AB}(λ)) S B = S B ( df 1 A B ( λ )) 는 B의 S-변환G A = ( κ + A ) − 1 G_A = (\kappa + A)^{-1} G A = ( κ + A ) − 1 , κ = λ S B \kappa = λS_B κ = λ S B 는 신호 포착 임계값df 2 ( κ , κ ′ ) = tr [ A 2 G A G A ′ ] \text{df}_2(\kappa, \kappa') = \text{tr}[A^2 G_A G'_A] df 2 ( κ , κ ′ ) = tr [ A 2 G A G A ′ ] 는 2차 자유도q = N / P q = N/P q = N / P 는 Wishart 매개변수직교 평균 : B를 B = O B ′ O ⊤ B = OB'O^\top B = O B ′ O ⊤ (B'는 대각)로 쓰고, 직교군 O에 대해 평균화기약 그래프 전개 : 해석 연산자를 A/λ를 통해 연결된 기약 그래프 체인으로 전개:그래프 표현(단순화):
[1/S_B] --A/λ--> [1/S_B] --A/λ--> ...
연결 그래프 합 : 각 기약 그래프는 완전 연결 그래프의 합이며, 자유 누적량 κ B ( n ) \kappa_B^{(n)} κ B ( n ) 을 포함한다:1 S B = ∑ n = 1 ∞ κ B ( n ) tr [ G A B A ] n − 1 \frac{1}{S_B} = \sum_{n=1}^\infty \kappa_B^{(n)} \text{tr}[G_A BA]^{n-1} S B 1 = ∑ n = 1 ∞ κ B ( n ) tr [ G A B A ] n − 1
M 삽입의 처리 : M을 포함하는 항은 자기 일관성 방정식을 생성한다:X M = S B S B ′ R B [ g , g ′ ] ( tr [ G A M G A ′ ] + X M tr [ G A A 2 G A ′ ] ) X_M = S_B S'_B R_B[g, g'] \left( \text{tr}[G_A M G'_A] + X_M \text{tr}[G_A A^2 G'_A] \right) X M = S B S B ′ R B [ g , g ′ ] ( tr [ G A M G A ′ ] + X M tr [ G A A 2 G A ′ ] )
여기서 혼합 R-변환 R B [ g , g ′ ] = ∑ n = 1 ∞ ∑ a + b = n κ B ( n ) g a − 1 g ′ b − 1 R_B[g, g'] = \sum_{n=1}^\infty \sum_{a+b=n} \kappa_B^{(n)} g^{a-1} g'^{b-1} R B [ g , g ′ ] = ∑ n = 1 ∞ ∑ a + b = n κ B ( n ) g a − 1 g ′ b − 1
Wishart 경우 단순화 : κ B ( a + b ) = q κ B ( a ) κ B ( b ) \kappa_B^{(a+b)} = q\kappa_B^{(a)}\kappa_B^{(b)} κ B ( a + b ) = q κ B ( a ) κ B ( b ) 이므로, 혼합 R-변환이 인수분해된다.경사 흐름 항 (이중 주파수):
F ( ω , ω ′ ) = S W S W ′ 1 − γ ( ω 1 , ω 1 ′ ) w ˉ ⊤ ( i ω 1 + Σ ) − 1 Σ ( i ω 1 ′ + Σ ) − 1 w ˉ F(\omega, \omega') = \frac{S_W S'_W}{1-\gamma(\omega_1, \omega'_1)} \bar{w}^\top (i\omega_1 + \Sigma)^{-1} \Sigma (i\omega'_1 + \Sigma)^{-1} \bar{w} F ( ω , ω ′ ) = 1 − γ ( ω 1 , ω 1 ′ ) S W S W ′ w ˉ ⊤ ( i ω 1 + Σ ) − 1 Σ ( i ω 1 ′ + Σ ) − 1 w ˉ
여기서:
S W = 1 / ( 1 − D P df 1 ) S_W = 1/(1 - \frac{D}{P}\text{df}_1) S W = 1/ ( 1 − P D df 1 ) 는 Wishart의 S-변환ω 1 = S W ω \omega_1 = S_W \omega ω 1 = S W ω 는 재정규화된 주파수γ = D P df 2 ( ω 1 , ω 1 ′ ) \gamma = \frac{D}{P}\text{df}_2(\omega_1, \omega'_1) γ = P D df 2 ( ω 1 , ω 1 ′ ) SGD 커널 항 (단일 주파수로 충분):
K ( ω ) ≃ Tr [ Σ 2 ( Σ + i ω 1 ) − 1 ] K(\omega) \simeq \text{Tr}[\Sigma^2(\Sigma + i\omega_1)^{-1}] K ( ω ) ≃ Tr [ Σ 2 ( Σ + i ω 1 ) − 1 ]
결정론적 등가성을 두 번 적용해야 한다(먼저 데이터에, 그 다음 특징에):
경사 흐름 항 :
F ( ω , ω ′ ) ≃ S S ′ 1 − γ 1 [ w ˉ ⊤ ( i ω 2 + Σ ) − 1 Σ ( i ω 2 ′ + Σ ) − 1 w ˉ + correction term ] F(\omega, \omega') \simeq \frac{SS'}{1-\gamma_1} \left[ \bar{w}^\top (i\omega_2+\Sigma)^{-1}\Sigma(i\omega'_2+\Sigma)^{-1}\bar{w} + \text{correction term} \right] F ( ω , ω ′ ) ≃ 1 − γ 1 S S ′ [ w ˉ ⊤ ( i ω 2 + Σ ) − 1 Σ ( i ω 2 ′ + Σ ) − 1 w ˉ + correction term ]
여기서 ω 2 = S F F ⊤ S W ω \omega_2 = S_{FF^\top} S_W \omega ω 2 = S F F ⊤ S W ω 는 두 번 재정규화된다.
핵심 기법 : push-through 항등식 A ( B A + λ ) − 1 = ( A B + λ ) − 1 A A(BA+λ)^{-1} = (AB+λ)^{-1}A A ( B A + λ ) − 1 = ( A B + λ ) − 1 A 를 사용하여 표현식을 단순화한다.
이중 주파수 분석 : 처음으로 ( ω , ω ′ ) (\omega, \omega') ( ω , ω ′ ) 의 결합 의존성을 체계적으로 처리하여 비교환 효과를 포착평면 그래프 방법 : 그래프 이론 언어를 통해 복잡한 행렬 평균 계산을 명확하게 조직화S-변환의 새로운 해석 : S-변환을 동역학 응답 함수로서의 물리적 의미를 드러내고, 자유 확률 이론과 동역학 시스템 이론을 연결계층적 재정규화 : 확률적 특징 모델에서 주파수는 데이터와 특징의 확률성을 통해 순차적으로 재정규화된다. ω → ω 1 → ω 2 \omega \to \omega_1 \to \omega_2 ω → ω 1 → ω 2 , 각 단계는 하나의 확률 소스에 해당소프트 극한을 통한 정적 복원 : lim t → ∞ F ( t ) = lim ω , ω ′ → 0 ( i ω ) ( i ω ′ ) F ( ω , ω ′ ) \lim_{t\to\infty} F(t) = \lim_{\omega,\omega'\to 0} (i\omega)(i\omega')F(\omega,\omega') lim t → ∞ F ( t ) = lim ω , ω ′ → 0 ( iω ) ( i ω ′ ) F ( ω , ω ′ ) 를 통해 우아하게 정적 결과를 복원주의 : 본 논문은 순수 이론 연구이며, 주로 수학적 유도를 통해 이론의 정확성을 검증한다. 실험 검증은 주로 관련 연구16, 17 의 수치 실험을 인용한다.
알려진 결과와의 비교 :특수한 경우(예: λ=λ')에서 알려진 단일 점 결정론적 등가성 복원 확인 정적 극한에서 능선 회귀의 알려진 결과 복원 확인20 내부 일관성 검사 :단일 점 공식을 미분하여 얻은 결과와 λ=λ'일 때 두 점 공식의 일치 확인 서로 다른 유도 경로(단일 주파수 vs 이중 주파수)가 동일한 결과 제공 확인 DMFT 결과와의 비교 :본 논문 공식과 Bordelon 등16 의 DMFT 결과가 완전히 일치함을 확인 응답 함수와 S-변환의 대응 관계 수립 점근 체제 : D , N , P → ∞ D, N, P \to \infty D , N , P → ∞ , 비율 D / N , D / P D/N, D/P D / N , D / P 고정데이터 구조 : Tr ( Σ ) = Θ ( D ζ ) \text{Tr}(\Sigma) = \Theta(D^\zeta) Tr ( Σ ) = Θ ( D ζ ) , 0 ≤ ζ ≤ 1 0 \leq \zeta \leq 1 0 ≤ ζ ≤ 1 배치 크기 스케일링 : B = Θ ( D ζ ) B = \Theta(D^\zeta) B = Θ ( D ζ ) 로 안정적인 동역학 유지학습률 : η = Θ ( 1 ) \eta = \Theta(1) η = Θ ( 1 ) 차원과 무관단일 점 극한의 복원 (부록 A.1):
Σ ^ ( λ + Σ ^ ) − 2 \hat{\Sigma}(λ+\hat{\Sigma})^{-2} Σ ^ ( λ + Σ ^ ) − 2 에 대해, 두 점 공식에서 λ = λ ′ λ=λ' λ = λ ′ 를 취하면:
Σ ^ ( Σ ^ + λ ) − 2 ≃ d κ d λ Σ ( Σ + κ ) − 2 \hat{\Sigma}(\hat{\Sigma}+λ)^{-2} \simeq \frac{d\kappa}{dλ} \Sigma(\Sigma+\kappa)^{-2} Σ ^ ( Σ ^ + λ ) − 2 ≃ d λ d κ Σ ( Σ + κ ) − 2
이는 단일 점 공식 Σ ^ ( Σ ^ + λ ) − 1 ≃ S Σ ( Σ + κ ) − 1 \hat{\Sigma}(\hat{\Sigma}+λ)^{-1} \simeq S\Sigma(\Sigma+\kappa)^{-1} Σ ^ ( Σ ^ + λ ) − 1 ≃ S Σ ( Σ + κ ) − 1 을 미분한 것과 완전히 일치한다.
t → ∞ t \to \infty t → ∞ 극한(대응 ω , ω ′ → 0 \omega, \omega' \to 0 ω , ω ′ → 0 )에서, 경사 흐름 항은 능선 회귀의 알려진 결과를 복원한다:
lim t → ∞ R t = κ 2 w ˉ ⊤ Σ ( Σ + κ ) − 2 w ˉ + σ ϵ 2 \lim_{t\to\infty} R_t = \kappa^2 \bar{w}^\top \Sigma (\Sigma+\kappa)^{-2} \bar{w} + \sigma_\epsilon^2 lim t → ∞ R t = κ 2 w ˉ ⊤ Σ ( Σ + κ ) − 2 w ˉ + σ ϵ 2
여기서 κ \kappa κ 는 자기 일관성 방정식을 만족한다: κ = lim ω → 0 S B ( df 1 Σ ( κ ) ) ⋅ ω \kappa = \lim_{\omega\to 0} S_B(\text{df}_1^\Sigma(\kappa)) \cdot \omega κ = lim ω → 0 S B ( df 1 Σ ( κ )) ⋅ ω
테스트 분포 Σ ′ \Sigma' Σ ′ 이 훈련 분포 Σ \Sigma Σ 와 다른 경우, 정적 일반화 오류는:
E Σ ′ , w ˉ O O D ≃ κ 2 [ w ˉ ⊤ ( Σ + κ ) − 1 Σ ′ ( Σ + κ ) − 1 w ˉ + w ˉ ⊤ Σ ( Σ + κ ) − 2 w ˉ γ ′ 1 − γ ] + σ ϵ 2 γ ′ 1 − γ E_{\Sigma',\bar{w}}^{OOD} \simeq \kappa^2 \left[ \bar{w}^\top (\Sigma+\kappa)^{-1}\Sigma'(\Sigma+\kappa)^{-1}\bar{w} + \bar{w}^\top \Sigma(\Sigma+\kappa)^{-2}\bar{w} \frac{\gamma'}{1-\gamma} \right] + \sigma_\epsilon^2 \frac{\gamma'}{1-\gamma} E Σ ′ , w ˉ OO D ≃ κ 2 [ w ˉ ⊤ ( Σ + κ ) − 1 Σ ′ ( Σ + κ ) − 1 w ˉ + w ˉ ⊤ Σ ( Σ + κ ) − 2 w ˉ 1 − γ γ ′ ] + σ ϵ 2 1 − γ γ ′
여기서 γ ′ = D P tr [ Σ ( Σ + κ ) − 1 Σ ′ ( Σ + κ ) − 1 ] \gamma' = \frac{D}{P}\text{tr}[\Sigma(\Sigma+\kappa)^{-1}\Sigma'(\Sigma+\kappa)^{-1}] γ ′ = P D tr [ Σ ( Σ + κ ) − 1 Σ ′ ( Σ + κ ) − 1 ]
이는 Patil 등40 과 Canatar 등41 의 결과를 복원하고 동역학 경우로 확장한다.
방법 유한 P 유한 N 동역학 공변량 이동 기술 경로 Bordelon 등16 ✓ ✓ ✓ ✗ DMFT Paquette 등17 ✓ ✗ ✓ ✗ 단일 점 결정론적 등가성 본 논문 ✓ ✓ ✓ ✓ 두 점 결정론적 등가성
SGD 커널 항의 구조 :훈련 커널 K ^ \hat{K} K ^ 와 테스트 커널 K K K 는 추가 항으로만 다르다 이 추가 항은 ω → 0 \omega \to 0 ω → 0 일 때 음이 아니며, SGD의 훈련 손실에 대한 추가 정규화 효과를 설명한다. GCV의 동역학 확장 :경험적 손실과 모집단 손실은 경사 흐름 하에서 인수 S W S W ′ S_W S'_W S W S W ′ 만큼 다르다 이는 일반화된 교차 검증(GCV)의 동역학 경우에 대한 자연스러운 확장이다. 응답 함수의 물리적 의미 :DMFT의 응답 함수 R 1 , R 3 R_1, R_3 R 1 , R 3 는 1 / S W , 1 / S F F ⊤ 1/S_W, 1/S_{FF^\top} 1/ S W , 1/ S F F ⊤ 에 해당한다 S-변환은 주파수 섭동에 대한 시스템의 응답을 인코딩한다. 다중 스케일 재정규화 :주파수는 데이터와 특징의 확률성을 통해 순차적으로 재정규화된다 각 확률 계층은 하나의 S-변환 인수를 도입한다. 단일 점 결정론적 등가성 :Knowles & Yin 29 : 이방성 국소 법칙 수립 Louart 등30 : 신경망 분석에 적용 Bach 28 : 이중 하강 현상 분석에 사용 Atanasov 등20 : 고차원 회귀의 스케일링과 재정규화에 대한 체계적 종합 자유 확률 이론 :Potters & Bouchaud 24 : 확률 행렬 이론 교과서 S-변환의 성질: S A ∗ B = S A S B S_{A*B} = S_A S_B S A ∗ B = S A S B (자유 합성곱) 경험적 관찰 :Kaplan 등2 : 언어 모델의 스케일링 법칙 Hoffmann 등3 : Chinchilla 최적 훈련 Hestness 등1 : 심층 학습 스케일링의 예측 가능성 이론 분석 :Bordelon 등16 : DMFT를 통한 확률적 특징 모델의 스케일링 분석 Paquette 등17 : 4+3개의 계산 최적 단계 식별 Lin 등18 : 선형 회귀의 스케일링 법칙 커널 방법 :Lin & Rosasco 13 : 다중 라운드 SGD의 최적 속도 Pillaud-Vivien 등14 : 어려운 학습 문제의 통계적 최적성 단순화 모델 :Bordelon & Pehlevan 21 : 구조화된 특징에서의 학습 곡선 Paquette 등35-37 : 고차원 SGD의 정확한 위험 궤적 Canatar 등34 : 스펙트럼 편향과 작업-모델 정렬 능선 회귀 :Hastie 등25 : 고차원 능선 없는 보간의 놀라운 현상 Defilippis 등32 : 무차원 결정론적 등가성 Misiakiewicz & Saeed 33 : 비점근 이론 공변량 이동 :Patil 등40 : OOD 예측의 최적 능선 정규화 Canatar 등41 : 커널 회귀의 OOD 일반화 통일된 프레임워크 : 두 점 결정론적 등가성은 유한 데이터, 유한 모델 크기, SGD 노이즈를 분석하기 위한 통일된 수학적 프레임워크를 제공한다.이론적 완전성 : 모든 알려진 결과(정적 능선 회귀, DMFT 동역학, 단일 점 결정론적 등가성)를 복원하고 새로운 시나리오(공변량 이동의 동역학)로 확장한다.방법론적 기여 : 평면 그래프 전개와 자유 확률 이론의 결합은 확률 행렬 이론에 새로운 계산 도구를 제공한다.물리적 통찰 : S-변환을 응답 함수로서의 깊은 의미를 드러내고, 결정론적 등가성과 DMFT 사이의 다리를 구축한다.점근적 성질 :결과는 D , N , P → ∞ D, N, P \to \infty D , N , P → ∞ 극한에서 정확하다 유한 차원의 오류 경계가 제시되지 않음(수치 실험16,17 은 근사가 좋음을 보여줌) 비평면 그래프(변동 및 차수 수정에 해당)는 분석되지 않음 모델 제한 :선형 모델과 선형 확률적 특징에만 적용 가능 특징 행렬 F는 가우스 확률이어야 함 데이터 공분산 Σ는 특정 스펙트럼 조건을 만족해야 함 기술적 가정 :특정 SGD 항(Eq III.1의 중간 항) 무시 필요 배치 크기는 B = Θ ( D ζ ) B = \Theta(D^\zeta) B = Θ ( D ζ ) 로 스케일링되어야 함 학습률은 η = Θ ( 1 ) \eta = \Theta(1) η = Θ ( 1 ) 유지 필요 엄밀성 :단순화 모델(Eq III.2)의 등가성이 엄밀하게 증명되지 않음. 주로 선행 연구21, 35-37 인용 정량적 오류 경계의 유도는 향후 연구로 남겨짐 비선형 모델로의 확장 :얕은 신경망의 두 점 등가성 커널 방법의 비선형 버전 유한 차원 수정 :1/N, 1/P 수정 항 유도 정량적 오류 경계 수립24, 29-33 더 일반적인 확률성 :비가우스 특징 행렬 구조화된 확률 행렬(순환, Toeplitz 등) 최적화 알고리즘 :momentum, Adam 등 최적화기로 확장 적응형 학습률 분석 실제 응용 :이론을 활용한 초매개변수 선택 지도 대규모 모델 성능 예측 이론적 깊이 :두 점 결정론적 등가성을 처음으로 체계적으로 유도하여 확률 행렬 이론의 중요한 공백 메움 평면 그래프 방법이 복잡한 계산을 우아하게 조직화하며 높은 확장성 보유 여러 수학 분야(확률 행렬, 자유 확률, 동역학 시스템, 통계 물리)의 깊은 연결 수립 통일성 :단일 프레임워크가 여러 선행 독립적 결과를 통합 서로 다른 기술 경로(DMFT vs 결정론적 등가성)의 등가성 명확화 정적에서 동역학, 유한에서 무한으로의 매끄러운 전환 기술적 혁신 :혼합 R-변환의 도입이 두 매개변수의 결합을 교묘하게 처리 계층적 재정규화 개념이 다중 확률 소스의 효과를 명확하게 보여줌 푸리에 공간 분석이 복잡한 시간 진화를 대수 문제로 변환 완전성 :상세한 부록이 모든 변형 공식 포함 다양한 일관성 검사가 이론 정확성 검증 명확한 기호 체계와 그림이 이해 보조 영향력 잠재성 :더 복잡한 모델 분석을 위한 도구 상자 제공 새로운 수치 알고리즘 영감 가능(결정론적 등가성 기반 빠른 시뮬레이션) 심층 학습의 스케일링 법칙 이해를 위한 이론적 기초 제공 가독성 도전 :깊은 확률 행렬 이론 배경 필요 기호 체계 복잡(다층 아래첨자, 다중 S-변환) 주요 결과(Eq IV.2, VI.2)의 형식이 복잡하여 직관적 이해 어려움 실험 검증 부족 :본 논문에서 새로운 수치 실험 미제공 인용 문헌16, 17 의 검증에 완전히 의존 이론 예측 정확성의 체계적 평가 부족(서로 다른 D, N, P에서의 오류) 응용 지도 제한 :이론 결과가 복잡한 자기 일관성 방정식 풀이 필요(κ 계산 등) 실용적 알고리즘이나 코드 구현 미제공 실제 심층 학습에 대한 지도 의미 불명확 기술적 가정의 합리성 :Eq III.1의 중간 항 무시 논증이 충분히 엄밀하지 않음(특히 ζ=0 경우) 단순화 모델의 적용 조건이 완전히 특성화되지 않음 데이터 구조 가정(스펙트럼 감소 속도)이 강함 일반화 제한 :가우스 가정이 실제로 자주 위반됨 선형 모델과 실제 신경망 간 큰 차이 배치 크기 스케일링 요구사항이 실제로 비현실적일 수 있음 학계에 대한 기여 :
이론적 기초 : 고차원 통계 및 기계 학습 이론에 새로운 도구 제공, 광범위한 인용 예상방법론 : 평면 그래프 방법과 두 점 기법이 다른 문제 연구에 영감 가능통일 관점 : 여러 연구 커뮤니티(통계 물리, 확률 행렬, 기계 학습 이론) 연결실용적 가치 :
단기 : 주로 이론적 가치, 직접 응용 제한적중기 : 모델 설계 및 초매개변수 선택 지도 가능(예: 최적 P/N 비율)장기 : 대규모 모델 거동 이해 및 예측을 위한 이론적 기초 제공재현성 :
이론 유도가 상세하여 원칙적으로 완전히 재현 가능 코드 구현 부재로 실제 응용 진입 장벽 상승 수치 검증이 선행 연구에 의존하여 독립적 검증에 추가 작업 필요 가장 적합한 시나리오 :
고차원 선형 모델 : P, N, D가 모두 크고 비율이 고정된 회귀 문제이론 분석 : 정확한 점근 거동이 필요한 이론 연구스케일링 법칙 예측 : 모델 성능이 규모에 따라 어떻게 변하는지 예측공변량 이동 : 훈련과 테스트 분포가 다른 시나리오덜 적합한 시나리오 :
소표본 문제 : 점근 이론이 적용 불가비선형 심층 네트워크 : 이론 확장 필요비가우스 데이터 : 이론 가정 위반실시간 응용 : 자기 일관성 방정식 풀이가 느릴 수 있음잠재적 응용 방향 :
신경망 아키텍처 탐색에서의 성능 예측 데이터 수집 전략 최적화(언제 데이터 수집을 중단할지) 모델 압축 및 지식 증류의 이론적 지도 전이 학습 및 도메인 적응의 이론적 기초 16 B. Bordelon, A. Atanasov, and C. Pehlevan, "A dynamical model of neural scaling laws," ICML 2024.
17 E. Paquette, C. Paquette, L. Xiao, and J. Pennington, "4 + 3 phases of compute-optimal neural scaling laws," arXiv:2405.15074, 2024.
20 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Scaling and renormalization in high-dimensional regression," arXiv:2405.00592, 2024.
24 M. Potters and J.-P. Bouchaud, "A first course in random matrix theory," Cambridge University Press, 2020.
26 A. Atanasov, J. A. Zavatone-Veth, and C. Pehlevan, "Risk and cross validation in ridge regression with correlated samples," arXiv:2408.04607, 2024.
종합 평가 : 이는 이론적 깊이가 매우 높은 우수한 논문으로, 고차원 선형 모델의 SGD 동역학에 대한 통일되고 우아한 수학적 프레임워크를 제공한다. 두 점 결정론적 등가성의 유도는 중요한 이론적 기여이며, 평면 그래프 방법은 강력한 기술 역량을 보여준다. 직접적 응용이 제한적이고 가독성에 도전이 있지만, 기계 학습 이론의 장기적 발전에 중요한 가치를 지닌다. 향후 연구에서는 수치 검증 보충, 실용적 알고리즘 제공, 비선형 모델로의 확장을 권장한다.