2025-11-18T04:52:13.672359

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

Urdshals, Lau, Hoogland et al.

We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.

academic

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

基本信息

论文ID: 2510.12077
标题: Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory
作者: Einar Urdshals, Edmund Lau, Jesse Hoogland, Stan van Wingerden, Daniel Murfet
分类: stat.ML cs.LG
发表时间: October 15, 2025 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.12077

经济驱动力: 模型压缩直接影响推理成本。将模型内存减半可能使其运营价值翻倍，这推动了大量私人研发投资
理论空白: 现有压缩技术缺乏坚实的理论基础，特别是对压缩极限的理解
安全意义: 理解压缩极限对于评估模型能力传输的信息需求具有安全意义

现有方法局限性

经典MDL局限: 传统MDL假设模型是"正则的"(参数到分布映射一对一，Fisher信息矩阵非奇异)，但神经网络违反这些假设
启发式方法: 现有压缩技术(如基于Hessian谱的剪枝)缺乏理论基础
维度悖论: 神经网络的"有效维度"远小于参数数量，但缺乏严格的理论解释

核心贡献

奇异MDL原理: 使用奇异学习理论扩展MDL原理到神经网络，证明存在双部分编码，其渐近冗余度涉及局部学习系数(LLC)
理论-实践桥梁: 建立了LLC与实际压缩技术(量化、因式分解)之间的理论联系
实证验证: 在Pythia系列模型(最大6.9B参数)上验证了LLC与可压缩性的线性关系(R²≥0.98)
压缩极限框架: 提供了严格评估模型压缩极限的理论框架

样本空间X(有限)，数据生成分布q^(n) ∈ Δ(X^n)
参数化统计模型M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d}
双部分编码：先发送编码分布p的表示⟦p⟧，再发送用p编码的数据⟦x^(n)⟧_p

核心定理(Theorem 1): 存在双部分编码使得对于任意可实现的数据生成分布q ∈ M，渐近冗余度为：

R_n = λ log n - (m-1) log log n + O_p(1)

其中λ是学习系数，m是重数。

关键技术创新

体积导向编码: 不同于传统的均匀分布，为占据更多参数体积的假设分配更短的编码
奇异性处理: 通过分辨率奇点定理处理神经网络的退化几何结构
局部学习系数: 利用LLC λ(w*)和重数m(w*)刻画局部最小值的几何性质

压缩关系推导

对于量化压缩，建立体积条件：

Vol(C_h) ≤ V(ε)

即量化单元体积 ≤ ε-子水平集体积。

得到每坐标bit预算：

b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)

关键洞察: 临界bit数与LLC线性增长，LLC越大(退化性越少)，需要更多bit维持精度。

LLC估计方法

使用预条件随机梯度朗之万动力学(pSGLD)估计：

λ̂(w*) = nβ[E^β_{w|w*,γ}[L_n(w)] - L_n(w*)]

其中期望基于Gibbs后验：

p(w|w*, β, γ) ∝ exp{-nβL_n(w) - γ/2||w-w*||₂²}

实验设置

数据集

Pythia模型套件: 14M到6.9B参数的transformer模型
训练数据: Pile数据集，所有模型使用相同数据和顺序训练
检查点: 2k到90k训练步骤(排除后期不稳定检查点)

压缩技术

对称量化:
- 将参数量化到n_q个等间隔值
- 优化裁剪参数m以最小化量化后损失
- 测量达到损失阈值ε的临界n_q*
张量因式分解:
- SVD分解权重矩阵W ← U×S×V
- 截断固定比例奇异值
- 避免首末层和连续层
其他技术: 高斯噪声添加、结构化剪枝

评价指标

可压缩性: 达到损失阈值ε时的临界压缩参数
LLC估计: 使用pSGLD的复杂度估计
线性相关性: R²系数评估LLC与压缩性的线性关系

强线性关系: 所有模型的LLC与临界n_q呈显著线性关系(R²≥0.98)
一致性: 跨越14M到6.9B参数的所有Pythia模型都显示类似模式
鲁棒性: 对不同损失阈值ε(0.3, 0.5, 0.7)结果定性一致

具体数值:

Pythia-160M: 斜率=0.11, R²=0.98
Pythia-410M: 斜率=0.08, R²=0.98
Pythia-1.4B: 斜率=0.16, R²=0.98
Pythia-6.9B: 斜率=0.14, R²=0.98

因式分解实验

LLC与临界压缩分数总体呈正相关
Pythia-6.9B在后期训练出现平台期，可能与损失曲线特征有关

消融实验

损失阈值敏感性: 测试ε=0.3, 0.5, 0.7，发现曲线定性不敏感
量化方法对比:
- 带损失最小化的量化显示更强线性关系
- 不带优化的量化仍有相关性但拟合度较低
其他压缩技术: 高斯噪声和剪枝也显示LLC与鲁棒性的相关性

实验发现

训练动态: LLC在训练过程中单调递增，与可压缩性降低一致
规模无关性: 线性关系在不同模型规模间保持一致
方法普适性: 多种压缩技术都验证了LLC的预测能力

结论与讨论

主要结论

理论贡献: 成功将MDL原理扩展到奇异模型，建立了LLC与压缩性的理论联系
实证发现: LLC能够准确预测神经网络的压缩极限，特别是量化压缩
方法验证: 为大规模transformer模型的LLC估计提供了独立验证

局限性

LLC估计挑战:
- 对超参数敏感
- SGLD理论基础存在gap
- 估计值与真实值可能存在系统性偏差
i.i.d.假设: 理论框架假设独立同分布，但语言建模违反此假设
计算成本: Pythia-6.9B的单次LLC估计需要H200 GPU约3.5小时

未来方向

理论完善:
- 改进SGLD的理论基础
- 处理非i.i.d.数据的扩展
- 更准确的LLC估计方法
实践应用:
- 开发基于LLC的压缩算法
- 扩展到更大规模模型
- 探索其他模态的应用

深度评价

优点

理论创新: 巧妙结合SLT和MDL，为压缩提供坚实理论基础
实验充分: 跨越多个模型规模和压缩技术的系统性验证
实用价值: 为评估压缩极限提供了可操作的理论工具
写作清晰: 复杂理论阐述清楚，实验设计合理

不足

理论局限: i.i.d.假设与实际应用场景不符
计算开销: LLC估计的高计算成本限制了实际应用
验证范围: 主要在Pythia系列上验证，需要更多模型架构的验证
压缩技术: 主要关注量化和因式分解，其他先进压缩技术覆盖不足

影响力

学术价值: 为神经网络复杂度测量提供了新的理论视角
实用意义: 有助于指导实际压缩算法的设计和优化
跨学科贡献: 连接了统计学习理论与深度学习实践
未来研究: 为进一步的理论和实证研究奠定了基础

适用场景

模型压缩: 评估和预测神经网络的压缩潜力
复杂度分析: 理解模型训练过程中复杂度的演化
架构设计: 指导设计更易压缩的网络结构
理论研究: 为奇异学习理论在深度学习中的应用提供范例

参考文献

Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory
Grünwald, P. & Roos, T. (2019). Minimum description length revisited
Lau, E. et al. (2024). The Local Learning Coefficient: A Singularity-Aware Complexity Measure
Biderman, S. et al. (2023). Pythia: A suite for analyzing large language models across training and scaling

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory

基本信息

摘要

研究背景与动机

核心问题

问题重要性

现有方法局限性

核心贡献

方法详解

任务定义

理论框架

奇异MDL原理

关键技术创新

压缩关系推导

LLC估计方法

实验设置

数据集

压缩技术

评价指标

实验结果

主要结果

量化实验

因式分解实验

消融实验

实验发现

相关工作

网络压缩领域

理论基础

本文优势

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献