We study neural network compressibility by using singular learning theory to extend the minimum description length (MDL) principle to singular models like neural networks. Through extensive experiments on the Pythia suite with quantization, factorization, and other compression techniques, we find that complexity estimates based on the local learning coefficient (LLC) are closely, and in some cases, linearly correlated with compressibility. Our results provide a path toward rigorously evaluating the limits of model compression.
论文ID : 2510.12077标题 : Compressibility Measures Complexity: Minimum Description Length Meets Singular Learning Theory作者 : Einar Urdshals, Edmund Lau, Jesse Hoogland, Stan van Wingerden, Daniel Murfet分类 : stat.ML cs.LG发表时间 : October 15, 2025 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.12077 本文通过奇异学习理论(Singular Learning Theory, SLT)将最小描述长度(Minimum Description Length, MDL)原理扩展到神经网络等奇异模型,研究神经网络的可压缩性。通过在Pythia模型套件上进行量化、因式分解等压缩技术的大规模实验,发现基于局部学习系数(Local Learning Coefficient, LLC)的复杂度估计与可压缩性高度相关,在某些情况下甚至呈线性关系。研究结果为严格评估模型压缩极限提供了理论路径。
本文要解决的核心问题是如何理论性地测量神经网络模型的复杂度,特别是区分"记忆训练数据"和"发现通用解"这两种不同的学习模式。传统方法无法仅从损失函数判断模型是否真正学到了泛化能力。
经济驱动力 : 模型压缩直接影响推理成本。将模型内存减半可能使其运营价值翻倍,这推动了大量私人研发投资理论空白 : 现有压缩技术缺乏坚实的理论基础,特别是对压缩极限的理解安全意义 : 理解压缩极限对于评估模型能力传输的信息需求具有安全意义经典MDL局限 : 传统MDL假设模型是"正则的"(参数到分布映射一对一,Fisher信息矩阵非奇异),但神经网络违反这些假设启发式方法 : 现有压缩技术(如基于Hessian谱的剪枝)缺乏理论基础维度悖论 : 神经网络的"有效维度"远小于参数数量,但缺乏严格的理论解释奇异MDL原理 : 使用奇异学习理论扩展MDL原理到神经网络,证明存在双部分编码,其渐近冗余度涉及局部学习系数(LLC)理论-实践桥梁 : 建立了LLC与实际压缩技术(量化、因式分解)之间的理论联系实证验证 : 在Pythia系列模型(最大6.9B参数)上验证了LLC与可压缩性的线性关系(R²≥0.98)压缩极限框架 : 提供了严格评估模型压缩极限的理论框架给定损失容忍度ε>0和压缩方案参数P,寻找最大压缩量P_max使得损失从原始值L增加到阈值L+ε。可压缩性定义为能够承受的最大压缩量。
设置 :
样本空间X(有限),数据生成分布q^(n) ∈ Δ(X^n) 参数化统计模型M = {p_w^(n) ∈ Δ(X^n) | w ∈ W ⊂ ℝ^d} 双部分编码:先发送编码分布p的表示⟦p⟧,再发送用p编码的数据⟦x^(n)⟧_p 核心定理 (Theorem 1):
存在双部分编码使得对于任意可实现的数据生成分布q ∈ M,渐近冗余度为:
R_n = λ log n - (m-1) log log n + O_p(1)
其中λ是学习系数,m是重数。
体积导向编码 : 不同于传统的均匀分布,为占据更多参数体积的假设分配更短的编码奇异性处理 : 通过分辨率奇点定理处理神经网络的退化几何结构局部学习系数 : 利用LLC λ(w*)和重数m(w*)刻画局部最小值的几何性质对于量化压缩,建立体积条件:
即量化单元体积 ≤ ε-子水平集体积。
得到每坐标bit预算:
b*(ε) = λ(w*)/d · log₂(1/ε) + O(log log(1/ε)/d)
关键洞察 : 临界bit数与LLC线性增长,LLC越大(退化性越少),需要更多bit维持精度。
使用预条件随机梯度朗之万动力学(pSGLD)估计:
λ̂(w*) = nβ[E^β_{w|w*,γ}[L_n(w)] - L_n(w*)]
其中期望基于Gibbs后验:
p(w|w*, β, γ) ∝ exp{-nβL_n(w) - γ/2||w-w*||₂²}
Pythia模型套件 : 14M到6.9B参数的transformer模型训练数据 : Pile数据集,所有模型使用相同数据和顺序训练检查点 : 2k到90k训练步骤(排除后期不稳定检查点)对称量化 :将参数量化到n_q个等间隔值 优化裁剪参数m以最小化量化后损失 测量达到损失阈值ε的临界n_q* 张量因式分解 :SVD分解权重矩阵W ← U×S×V 截断固定比例奇异值 避免首末层和连续层 其他技术 : 高斯噪声添加、结构化剪枝可压缩性 : 达到损失阈值ε时的临界压缩参数LLC估计 : 使用pSGLD的复杂度估计线性相关性 : R²系数评估LLC与压缩性的线性关系强线性关系 : 所有模型的LLC与临界n_q呈显著线性关系(R²≥0.98)一致性 : 跨越14M到6.9B参数的所有Pythia模型都显示类似模式鲁棒性 : 对不同损失阈值ε(0.3, 0.5, 0.7)结果定性一致具体数值 :
Pythia-160M: 斜率=0.11, R²=0.98 Pythia-410M: 斜率=0.08, R²=0.98 Pythia-1.4B: 斜率=0.16, R²=0.98 Pythia-6.9B: 斜率=0.14, R²=0.98 LLC与临界压缩分数总体呈正相关 Pythia-6.9B在后期训练出现平台期,可能与损失曲线特征有关 损失阈值敏感性 : 测试ε=0.3, 0.5, 0.7,发现曲线定性不敏感量化方法对比 :
带损失最小化的量化显示更强线性关系 不带优化的量化仍有相关性但拟合度较低 其他压缩技术 : 高斯噪声和剪枝也显示LLC与鲁棒性的相关性训练动态 : LLC在训练过程中单调递增,与可压缩性降低一致规模无关性 : 线性关系在不同模型规模间保持一致方法普适性 : 多种压缩技术都验证了LLC的预测能力经典方法 : 从LeCun等(1989)的Optimal Brain Damage到现代量化技术有效维度 : Maddox等(2020)发现深度网络的有效维度远小于参数数内在维度 : 微调中的低秩适应(LoRA)等发现MDL原理 : Grünwald和Roos(2019)的经典理论奇异学习理论 : Watanabe(2009)的开创性工作缩放定律 : 压缩与神经缩放定律的关系首次将SLT与MDL结合用于神经网络压缩 提供了压缩性的理论预测指标 大规模实证验证了理论预测 理论贡献 : 成功将MDL原理扩展到奇异模型,建立了LLC与压缩性的理论联系实证发现 : LLC能够准确预测神经网络的压缩极限,特别是量化压缩方法验证 : 为大规模transformer模型的LLC估计提供了独立验证LLC估计挑战 :
对超参数敏感 SGLD理论基础存在gap 估计值与真实值可能存在系统性偏差 i.i.d.假设 : 理论框架假设独立同分布,但语言建模违反此假设计算成本 : Pythia-6.9B的单次LLC估计需要H200 GPU约3.5小时理论完善 :
改进SGLD的理论基础 处理非i.i.d.数据的扩展 更准确的LLC估计方法 实践应用 :
开发基于LLC的压缩算法 扩展到更大规模模型 探索其他模态的应用 理论创新 : 巧妙结合SLT和MDL,为压缩提供坚实理论基础实验充分 : 跨越多个模型规模和压缩技术的系统性验证实用价值 : 为评估压缩极限提供了可操作的理论工具写作清晰 : 复杂理论阐述清楚,实验设计合理理论局限 : i.i.d.假设与实际应用场景不符计算开销 : LLC估计的高计算成本限制了实际应用验证范围 : 主要在Pythia系列上验证,需要更多模型架构的验证压缩技术 : 主要关注量化和因式分解,其他先进压缩技术覆盖不足学术价值 : 为神经网络复杂度测量提供了新的理论视角实用意义 : 有助于指导实际压缩算法的设计和优化跨学科贡献 : 连接了统计学习理论与深度学习实践未来研究 : 为进一步的理论和实证研究奠定了基础模型压缩 : 评估和预测神经网络的压缩潜力复杂度分析 : 理解模型训练过程中复杂度的演化架构设计 : 指导设计更易压缩的网络结构理论研究 : 为奇异学习理论在深度学习中的应用提供范例Watanabe, S. (2009). Algebraic Geometry and Statistical Learning Theory Grünwald, P. & Roos, T. (2019). Minimum description length revisited Lau, E. et al. (2024). The Local Learning Coefficient: A Singularity-Aware Complexity Measure Biderman, S. et al. (2023). Pythia: A suite for analyzing large language models across training and scaling