We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
논문ID : 2510.12077제목 : Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory저자 : Einar Urdshals, Edmund Lau, Jesse Hoogland, Stan van Wingerden, Daniel Murfet분류 : stat.ML cs.LG발표시간 : 2025년 10월 15일 (arXiv 사전인쇄본)논문링크 : https://arxiv.org/abs/2510.12077 본 논문은 특이학습이론(Singular Learning Theory, SLT)을 통해 최소기술길이(Minimum Description Length, MDL) 원리를 신경망 등의 특이 모델로 확장하여 신경망의 압축성을 연구한다. Pythia 모델 제품군에서 양자화, 인수분해 등의 압축 기법에 대한 대규모 실험을 수행한 결과, 국소학습계수(Local Learning Coefficient, LLC)에 기반한 복잡도 추정이 압축성과 높은 상관관계를 보이며, 일부 경우에는 선형관계를 나타낸다. 연구 결과는 모델 압축 극한을 엄밀하게 평가하기 위한 이론적 경로를 제공한다.
본 논문이 해결하고자 하는 핵심 문제는 신경망 모델의 복잡도를 이론적으로 측정하는 방법, 특히 "훈련 데이터 암기"와 "범용 해법 발견"이라는 두 가지 상이한 학습 양식을 구분하는 방법이다. 기존 방법은 손실함수만으로는 모델이 실제로 일반화 능력을 습득했는지 판단할 수 없다.
경제적 동인 : 모델 압축은 추론 비용에 직접적인 영향을 미친다. 모델 메모리를 절반으로 줄이면 운영 가치가 두 배로 증가할 수 있으며, 이는 대규모 민간 연구개발 투자를 촉진한다.이론적 공백 : 기존 압축 기법은 견고한 이론적 기초가 부족하며, 특히 압축 극한에 대한 이해가 부족하다.안전성 의미 : 압축 극한을 이해하는 것은 모델 능력 전이에 필요한 정보 요구사항을 평가하는 데 안전성 측면에서 의미가 있다.고전적 MDL의 한계 : 전통적 MDL은 모델이 "정규적"이라고 가정한다(매개변수에서 분포로의 매핑이 일대일이고 Fisher 정보 행렬이 비특이). 그러나 신경망은 이러한 가정을 위반한다.휴리스틱 방법 : 기존 압축 기법(예: Hessian 스펙트럼 기반 가지치기)은 이론적 기초가 부족하다.차원 역설 : 신경망의 "유효 차원"은 매개변수 수보다 훨씬 작지만, 엄밀한 이론적 설명이 부족하다.특이 MDL 원리 : 특이학습이론을 사용하여 MDL 원리를 신경망으로 확장하고, 점근 중복도가 국소학습계수(LLC)를 포함하는 이부 부호화가 존재함을 증명한다.이론-실무 연결 : LLC와 실제 압축 기법(양자화, 인수분해) 간의 이론적 연결을 수립한다.실증적 검증 : Pythia 시리즈 모델(최대 6.9B 매개변수)에서 LLC와 압축성 간의 선형관계를 검증한다(R²≥0.98).압축 극한 프레임워크 : 모델 압축 극한을 엄밀하게 평가하기 위한 이론적 프레임워크를 제공한다.손실 허용도 ε>0과 압축 방식 매개변수 P가 주어졌을 때, 손실이 원래 값 L에서 임계값 L+ε로 증가하도록 하는 최대 압축량 P_max를 찾는다. 압축성은 견딜 수 있는 최대 압축량으로 정의된다.
설정 :
표본 공간 X(유한), 데이터 생성 분포 q^(n) ∈ Δ(X^n) 매개변수화된 통계 모델 M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d} 이부 부호화: 먼저 부호화 분포 p의 표현 ⟦p⟧를 전송한 후, p로 부호화된 데이터 ⟦x^(n)⟧_p를 전송한다. 핵심 정리 (정리 1):
임의의 실현 가능한 데이터 생성 분포 q ∈ M에 대해, 점근 중복도가 다음과 같은 이부 부호화가 존재한다:
R_n = λ log n - (m-1) log log n + O_p(1)
여기서 λ는 학습계수, m은 중복도이다.
체적 지향 부호화 : 균등 분포와 달리, 더 많은 매개변수 체적을 차지하는 가설에 더 짧은 부호를 할당한다.특이성 처리 : 해상도 특이점 정리를 통해 신경망의 퇴화 기하학적 구조를 처리한다.국소학습계수 : LLC λ(w*)와 중복도 m(w*)를 이용하여 국소 최솟값의 기하학적 성질을 특성화한다.양자화 압축의 경우, 체적 조건을 수립한다:
즉, 양자화 단위 체적 ≤ ε-부분수준집합 체적.
좌표당 비트 예산을 얻는다:
b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)
핵심 통찰 : 임계 비트 수는 LLC와 선형적으로 증가하며, LLC가 클수록(퇴화성이 적을수록) 정밀도 유지에 더 많은 비트가 필요하다.
전조건화된 확률적 경사 Langevin 동역학(pSGLD)을 사용하여 추정한다:
λ̂(w*) = nβ[E^β_{w|w*,γ}[L_n(w)] - L_n(w*)]
여기서 기댓값은 Gibbs 사후분포를 기반으로 한다:
p(w|w*, β, γ) ∝ exp{-nβL_n(w) - γ/2||w-w*||₂²}
Pythia 모델 제품군 : 14M에서 6.9B 매개변수의 트랜스포머 모델훈련 데이터 : Pile 데이터셋, 모든 모델이 동일한 데이터와 순서로 훈련됨체크포인트 : 2k에서 90k 훈련 단계(후기 불안정 체크포인트 제외)대칭 양자화 :매개변수를 n_q개의 등간격 값으로 양자화 양자화 후 손실을 최소화하기 위해 클리핑 매개변수 m 최적화 손실 임계값 ε에 도달하는 임계 n_q* 측정 텐서 인수분해 :SVD 분해로 가중치 행렬 W ← U×S×V 고정 비율의 특이값 절단 첫 번째/마지막 계층과 연속 계층 제외 기타 기법 : 가우시안 노이즈 추가, 구조화된 가지치기압축성 : 손실 임계값 ε에 도달할 때의 임계 압축 매개변수LLC 추정 : pSGLD를 사용한 복잡도 추정선형 상관성 : R² 계수로 LLC와 압축성 간의 선형관계 평가강한 선형관계 : 모든 모델의 LLC와 임계 n_q가 현저한 선형관계를 보임(R²≥0.98)일관성 : 14M에서 6.9B 매개변수에 이르는 모든 Pythia 모델이 유사한 패턴을 보임견고성 : 서로 다른 손실 임계값 ε(0.3, 0.5, 0.7)에 대해 결과가 정성적으로 일관됨구체적 수치 :
Pythia-160M: 기울기=0.11, R²=0.98 Pythia-410M: 기울기=0.08, R²=0.98 Pythia-1.4B: 기울기=0.16, R²=0.98 Pythia-6.9B: 기울기=0.14, R²=0.98 LLC와 임계 압축 분수가 전반적으로 양의 상관관계를 보임 Pythia-6.9B는 후기 훈련에서 평탄화 현상을 보이며, 이는 손실 곡선 특성과 관련이 있을 수 있음 손실 임계값 민감도 : ε=0.3, 0.5, 0.7 테스트 결과, 곡선이 정성적으로 민감하지 않음을 발견양자화 방법 비교 :
손실 최소화를 포함한 양자화가 더 강한 선형관계를 보임 최적화 없는 양자화도 상관성을 보이지만 적합도가 낮음 기타 압축 기법 : 가우시안 노이즈와 가지치기도 LLC와 견고성 간의 상관성을 보임훈련 동역학 : LLC는 훈련 과정 중 단조증가하며, 이는 압축성 감소와 일치한다.규모 무관성 : 선형관계는 서로 다른 모델 규모 간에 일관되게 유지된다.방법 보편성 : 다양한 압축 기법이 LLC의 예측 능력을 검증한다.고전적 방법 : LeCun 등(1989)의 최적 뇌 손상(Optimal Brain Damage)에서 현대 양자화 기법까지유효 차원 : Maddox 등(2020)이 발견한 심층 네트워크의 유효 차원이 매개변수 수보다 훨씬 작음내재 차원 : 미세조정에서의 저순위 적응(LoRA) 등MDL 원리 : Grünwald와 Roos(2019)의 고전 이론특이학습이론 : Watanabe(2009)의 개척적 업무스케일링 법칙 : 압축과 신경 스케일링 법칙의 관계SLT와 MDL을 신경망 압축에 처음으로 결합 압축성의 이론적 예측 지표 제공 대규모 실증 검증으로 이론 예측 확인 이론적 기여 : MDL 원리를 특이 모델로 성공적으로 확장하고, LLC와 압축성 간의 이론적 연결을 수립했다.실증적 발견 : LLC는 신경망의 압축 극한을 정확하게 예측할 수 있으며, 특히 양자화 압축에서 그러하다.방법 검증 : 대규모 트랜스포머 모델의 LLC 추정에 대한 독립적 검증을 제공한다.LLC 추정의 어려움 :
초매개변수에 민감함 SGLD 이론적 기초의 간극 추정값과 실제값 간의 체계적 편차 가능성 i.i.d. 가정 : 이론적 프레임워크는 독립동일분포를 가정하지만, 언어 모델링은 이를 위반한다.계산 비용 : Pythia-6.9B의 단일 LLC 추정에는 H200 GPU에서 약 3.5시간이 필요하다.이론 개선 :
SGLD의 이론적 기초 개선 비i.i.d. 데이터 처리 확장 더 정확한 LLC 추정 방법 실제 응용 :
LLC 기반 압축 알고리즘 개발 더 큰 규모 모델로 확장 다른 모달리티에의 응용 탐색 이론적 혁신 : SLT와 MDL을 교묘하게 결합하여 압축에 견고한 이론적 기초를 제공한다.충분한 실험 : 다양한 모델 규모와 압축 기법에 걸친 체계적 검증실용적 가치 : 압축 극한 평가를 위한 실행 가능한 이론적 도구 제공명확한 작성 : 복잡한 이론을 명확하게 설명하고 합리적인 실험 설계이론적 한계 : i.i.d. 가정이 실제 응용 시나리오와 맞지 않음계산 오버헤드 : LLC 추정의 높은 계산 비용이 실제 응용을 제한함검증 범위 : 주로 Pythia 시리즈에서 검증되었으며, 더 많은 모델 아키텍처 검증 필요압축 기법 : 양자화와 인수분해에 주로 초점을 맞추었으며, 다른 고급 압축 기법의 범위 부족학문적 가치 : 신경망 복잡도 측정에 새로운 이론적 관점 제공실용적 의미 : 실제 압축 알고리즘의 설계 및 최적화 지도에 도움학제간 기여 : 통계학습이론과 심층학습 실무 연결향후 연구 : 추가 이론 및 실증 연구의 기초 마련모델 압축 : 신경망의 압축 잠재력 평가 및 예측복잡도 분석 : 모델 훈련 과정 중 복잡도 진화 이해아키텍처 설계 : 더 쉽게 압축할 수 있는 네트워크 구조 설계 지도이론 연구 : 심층학습에서 특이학습이론 응용의 범례 제공Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory Grünwald, P. & Roos, T. (2019). Minimum description length revisited Lau, E. et al. (2024). The Local Learning Coefficient: A Singularity-Aware Complexity Measure Biderman, S. et al. (2023). Pythia: A suite for analyzing large language models across training and scaling