2025-11-21T22:28:16.015152

Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models

Han
Weight initialization governs signal propagation and gradient flow at the start of training. This paper offers a theory-grounded and empirically validated study across two regimes: compact ReLU multilayer perceptrons and GPT-2-style transformers. First, a logarithmic sweep of the initial standard deviation maps vanishing and exploding regimes and identifies a broad stability band with standard deviations between 1e-2 and 1e-1. Second, a controlled comparison shows that Kaiming (fan-in) initialization converges faster and more stably than Xavier under ReLU, consistent with variance-preserving theory. Third, in a from-scratch 12-layer GPT-2-style model, this paper tracks layerwise Q/K/V weight variance through pretraining and observe depth-dependent equilibration into narrow bands: shallow layers expand rapidly while deeper layers change more gradually. Together, these results connect classic initialization principles with modern transformer behavior and yield simple, practical recipes for robust training.
academic

심층 신경망 및 대규모 언어 모델의 가중치 초기화 및 분산 동역학

기본 정보

  • 논문 ID: 2510.09423
  • 제목: Weight Initialization and Variance Dynamics in Deep Neural Networks and Large Language Models
  • 저자: Yankun Han (플로리다 대학교)
  • 분류: cs.LG (기계학습)
  • 발표 시간: 2025년 10월 10일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.09423

초록

가중치 초기화는 훈련 시작 시 신호 전파 및 기울기 흐름을 제어합니다. 본 논문은 두 가지 영역을 포괄하는 이론적 기초가 견고하고 경험적으로 검증된 연구를 제공합니다: 간결한 ReLU 다층 퍼셉트론과 GPT-2 스타일의 Transformer입니다. 첫째, 초기 표준편차에 대한 로그 스캔을 통해 기울기 소실 및 폭발 영역을 매핑하고, 표준편차가 1e-2에서 1e-1 사이의 광범위한 안정 대역을 식별했습니다. 둘째, 제어된 비교를 통해 ReLU 활성화 함수에서 Kaiming(fan-in) 초기화가 Xavier 초기화보다 더 빠르고 안정적으로 수렴함을 보였으며, 이는 분산 보존 이론과 일치합니다. 셋째, 처음부터 구축한 12층 GPT-2 스타일 모델에서 사전훈련 과정 중 각 층의 Q/K/V 가중치 분산 변화를 추적하여, 깊이 관련 균형 현상을 관찰했습니다: 얕은 층은 빠르게 확장되는 반면 깊은 층은 더욱 점진적으로 변화합니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 심층 신경망 및 대규모 언어 모델에서 가중치 초기화가 훈련 안정성 및 수렴성에 미치는 영향입니다. 구체적으로는 다음을 포함합니다:

  1. 초기화 규모 민감도: 서로 다른 초기 표준편차가 훈련 안정성에 어떻게 영향을 미치는가
  2. 활성화 함수 특이성: ReLU 및 GELU 등의 활성화 함수가 특정 초기화 전략을 필요로 하는가
  3. 현대 Transformer의 분산 동역학: 대규모 Transformer 모델에서 분산 안정화가 계속 존재하는가

중요성

가중치 초기화는 심층학습 훈련 성공의 핵심 요소이며, 부적절한 초기화는 다음을 초래합니다:

  • 기울기 소실: 신호가 깊은 층의 네트워크에서 계층별로 감소
  • 기울기 폭발: 신호가 전파 과정에서 지수적으로 증가
  • 훈련 불안정성: 최적화 과정에서의 진동 및 발산

기존 방법의 한계

고전적인 초기화 방법(LeCun, Xavier/Glorot, He/Kaiming)은 이론적으로 분산 보존의 직관을 가지고 있지만, 실제 응용에서는 여전히 다음과 같은 문제가 있습니다:

  1. 이상적인 규모 편차에 대한 민감도가 충분히 정량화되지 않음
  2. 특정 활성화 함수(예: ReLU, GELU)의 영향 메커니즘이 불명확
  3. 대규모 Transformer에서의 성능에 대한 체계적 연구 부족

핵심 기여

  1. 통합 분산 분석 프레임워크: 일반적인 활성화 함수(ReLU, GELU)의 전방향 및 역방향 분산 전파 조건을 도출하여, fan-in 스케일링이 신호 진폭을 어떻게 보존하는지, 그리고 ReLU의 계수 2의 출처를 설명합니다.
  2. 규모 민감도 정량화: 25개의 표준편차 값에 대한 로그 스캔을 통해 기울기 소실/폭발 영역을 매핑하고, 안정적인 훈련 대역 σ ∈ 10⁻², 10⁻¹을 식별했습니다.
  3. 활성화 함수 인식 초기화 검증: 제어된 ReLU MLP 훈련에서 Kaiming normal(fan-in)이 Xavier normal보다 더 빠르게 수렴하고 손실 분산이 더 작음을 입증했습니다.
  4. Transformer 분산 동역학 분석: 처음부터 구축한 12층 GPT-2 스타일 모델에서 명확한 깊이 관련 패턴을 발견했습니다: 얕은 층 가중치 표준편차는 빠르게 확장되고, 깊은 층은 더욱 점진적이며, 최종적으로 모두 좁은 분산 대역에서 안정화됩니다.

방법 상세 설명

이론적 프레임워크

전방향 전파 분산 분석

선형 매핑의 경우:

Var[z_l] = n_in σ²_W Var[x_{l-1}]

비선형 활성화 후:

Var[x_l] ≈ c_φ n_in σ²_W Var[x_{l-1}]

여기서 c_φ = E[φ(z)²]/Var[z]는 활성화 함수 관련 상수입니다.

활성화 값의 소실 또는 폭발을 피하기 위해 σ²_W ≈ 1/(c_φ n_in)을 선택합니다:

  • ReLU: c_φ ≈ 1/2이므로 σ²_W ≈ 2/n_in (He/Kaiming)
  • GELU: c_φ ≈ 0.45-0.5로 ReLU보다 약간 작음

역방향 전파 분산 분석

역전파는 다음을 제공합니다:

Var[δ_{l-1}] ≈ n_out σ²_W d_φ Var[δ_l]

여기서 d_φ = E[φ'(z)²]입니다. ReLU의 경우 d_φ = 1/2이고, 기울기 분산 균형을 위해서는 σ²_W ≈ 2/n_out이 필요합니다.

균형 및 실제 선택

전방향 및 역방향 보존 조건은 일반적으로 동시에 만족될 수 없으며, n_in ≈ n_outc_φ ≈ d_φ인 경우를 제외합니다. 실제로는 전방향 신호 안정성을 유지하는 것이 일반적으로 더 중요하며, 이는 fan-in He/Kaiming이 Xavier보다 더 빠르게 수렴하는 이유를 설명합니다.

실험 설계

실험 E1: 표준편차 스캔

  • 네트워크 아키텍처: 784→64→32→32→10의 ReLU MLP
  • 데이터셋: MNIST
  • 스캔 범위: 10⁻⁴에서 10까지 25개의 표준편차 값, 로그 간격
  • 평가 지표: 손실 궤적, 분류 정확도

실험 E2: Xavier vs Kaiming 비교

  • 네트워크 아키텍처: 11→16→32→32→1의 ReLU 네트워크
  • 데이터셋: UCI Wine 이진 분류 작업
  • 비교 방안: Xavier normal vs Kaiming uniform
  • 통계 검증: 10회 무작위 실행, 쌍을 이룬 t 검정

실험 E3: GPT-2 분산 동역학

  • 모델 규모: 12층 GPT-2 스타일 Transformer
  • 초기화: 표준 구성(대부분의 모듈 std=0.02, 임베딩 층 xavier normal)
  • 최적화기: AdamW, 학습률 1×10⁻⁴, 배치 크기 16
  • 추적 대상: 모든 층의 Q/K/V 투영 가중치 표준편차

실험 결과

E1: 표준편차 스캔 결과

  • 안정 구간: σ ∈ 10⁻², 10⁻¹ 내에서 훈련이 평활하고, 기울기 성능이 양호하며, 정확도가 이 구간 내에서 최고값에 도달합니다.
  • 기울기 소실: 극소 규모(σ ≲ 10⁻³)는 업데이트 소실 및 정확도 저하를 초래합니다.
  • 기울기 폭발: 극대 규모(σ ≳ 1)는 불안정한 손실 및 간헐적 발산을 생성합니다.

E2: 초기화 방법 비교

Kaiming 초기화는 여러 차원에서 지속적으로 Xavier를 능가합니다:

  • 수렴 속도: 목표 달성까지의 중앙값 에포크가 더 적고, 초기 손실 감소가 더 가파릅니다.
  • 정확도: 최종 검증 정확도가 Xavier와 일치하거나 약간 초과합니다.
  • 통계적 유의성: 쌍을 이룬 t 검정은 손실 및 훈련 정확도 차이가 유의함을 보여줍니다(p < 0.05).

E3: Transformer 분산 동역학 발견

  • 깊이 관련 패턴: 얕은 층은 초기 훈련에서 빠르고 현저한 가중치 표준편차 확장을 보이는 반면, 깊은 층은 더욱 느리고 평활한 확장을 보입니다.
  • 분산 균형: 모든 층은 최종적으로 좁은 분산 대역에서 안정화됩니다.
  • 분포 희소화: 훈련 후 가중치 분포는 더욱 희소해지며, 많은 항목이 0에 가까워 변하지 않고, 소수의 큰 가중치가 지배적입니다.

이론적 통찰 및 실제 의의

깊이 관련 분산 균형 메커니즘

논문은 Transformer의 점진적 균형 패턴을 드러냅니다:

  1. 얕은 층의 빠른 적응: 입력에 가까운 층은 높은 신호 대 잡음비 기울기를 가지며, 초기 적극적 스케일링을 장려합니다.
  2. 깊은 층의 점진적 조정: 잔차 경로 길이 및 사전 정규화는 깊은 층의 유효 스텝 크기를 제한합니다.
  3. 암묵적 제약: 주의 softmax 포화 및 AdamW의 가중치 감소는 큰 매개변수 규모를 방지합니다.

실제 지도 원칙

  1. ReLU/GELU MLP: fan-in He/Kaiming에서 시작합니다. 매우 불균형한 층이 기울기 드리프트를 초래하면, fan-average 선택으로 약간 이동합니다.
  2. 깊은 잔차 스택: 잔차 스케일링(예: 1/√L) 또는 정규화는 깊이 분산 드리프트 방지에 도움이 됩니다.
  3. Transformer 투영: 작은 표준편차 초기화(예: 0.02)를 사용하고, 각 층의 표준편차 및 기울기 범위를 모니터링합니다.

관련 연구 비교

기초 초기화 전략

  • LeCun 방법: 선형 활성화에 대한 분산 보존 규칙
  • Glorot/Xavier: tanh/sigmoid 스케일링을 위한 fan 기반
  • He/Kaiming: ReLU에서 이차 모멘트 반감을 보정하는 활성화 인식 스케일링

현대 발전

  • Fixup 초기화: 신중하게 선택된 초기화 및 잔차 스케일링을 통해 극도로 깊은 네트워크에서 정규화 필요성 제거
  • DeepNet: 천 층급 훈련을 가능하게 하는 원칙적 깊이 스케일링 규칙 제안
  • 사전 정규화 장점: 사후 정규화와 비교하여 평활한 기울기 흐름을 통해 최적화 안정성 개선

결론 및 논의

주요 결론

  1. 안정성 대역 존재: σ ∈ 10⁻², 10⁻¹ 범위 내에 광범위하지만 민감한 안정성 대역이 존재합니다.
  2. 활성화 함수 특이성 중요: Kaiming 초기화는 ReLU 네트워크에서 실제로 Xavier보다 우수합니다.
  3. 깊이 관련 동역학: Transformer는 깊이 관련 분산 균형을 나타내며, 얕은 층은 빠르게 적응하고 깊은 층은 점진적으로 조정됩니다.

한계

  1. 실험 규모: GPT-2 실험은 상대적으로 작습니다(12층). 대규모 모델의 동작은 다를 수 있습니다.
  2. 활성화 함수 범위: 주로 ReLU 및 GELU에 초점을 맞추며, 다른 활성화 함수의 분석은 제한적입니다.
  3. 최적화기 의존성: 결과는 특정 최적화기(AdamW) 및 하이퍼파라미터 설정에 민감할 수 있습니다.

향후 방향

  1. 적응형 깊이 인식 초기화: 각 층 또는 각 헤드의 규모를 학습하여 얕은 층을 최종 분산 수준에 더 가깝게 만듭니다.
  2. 최적화기 및 스케줄 결합: 예열 길이, 가중치 감소 및 기울기 클리핑을 공동으로 최적화합니다.
  3. 깊이 및 너비 스케일링: 더 큰 모델에서 깊이 관련 균형의 지속성을 평가합니다.

심층 평가

장점

  1. 이론과 실제의 결합: 고전적 분산 전파 이론을 현대 Transformer 동작과 유기적으로 결합합니다.
  2. 체계적 실험 설계: 간단한 MLP에서 복잡한 Transformer로의 점진적 검증
  3. 높은 실제 가치: 구체적인 초기화 권장사항 및 진단 방법 제공
  4. 통계적 엄밀성: 쌍을 이룬 t 검정 등의 통계 방법을 사용하여 결과 유의성 검증

부족한 점

  1. 이론 분석 깊이 제한: 깊이 관련 현상에 대한 더 깊은 이론적 설명 부족
  2. 실험 규모 제약: 계산 자원 제한으로 인해 진정한 대규모 모델에서 검증하지 못함
  3. 일반화 문제: 결과는 주로 특정 아키텍처 및 작업을 기반으로 하며, 일반화 능력은 추가 검증이 필요합니다.

영향력 평가

  1. 학술 기여: 초기화 이론에 현대적 관점을 제공하여 고전 이론과 현재 실제를 연결합니다.
  2. 실제 가치: 실무자에게 명확한 초기화 전략 및 진단 도구를 제공합니다.
  3. 재현성: 실험 설계가 명확하고 코드 및 매개변수 설정이 상세하여 재현이 용이합니다.

적용 시나리오

  1. 심층 네트워크 훈련: 특히 ReLU/GELU 활성화의 심층 네트워크에 적합합니다.
  2. Transformer 최적화: 대규모 언어 모델 훈련에 초기화 지도를 제공합니다.
  3. 연구 도구: 연구자에게 가중치 동역학 분석을 위한 방법론 프레임워크를 제공합니다.

참고 문헌

논문은 LeCun, Glorot, He 등의 기초 연구를 포함한 초기화 분야의 핵심 저작과 Transformer 최적화의 최근 진전을 인용하여 본 연구에 견고한 이론적 기초를 제공합니다.