2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin

Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.

academic

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

基本信息

论文ID: 2509.06836
标题: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
作者: Eugene Kwek, Wenpeng Yin (Penn State University)
分类: cs.CL cs.AI cs.LG
发表状态: Preprint under review
论文链接: https://arxiv.org/abs/2509.06836v3

摘要

本文针对大语言模型(LLM)在内存、延迟和服务成本方面的效率优化问题，提出了COMPACT剪枝方法。该方法结合了词汇剪枝和基于常见token加权的FFN通道剪枝，在保持标准transformer架构的同时实现了参数压缩。实验在Qwen、LLaMA和Gemma等模型族(0.5B-70B参数)上验证了方法的有效性。

研究背景与动机

问题定义

大语言模型虽然在各种NLP任务上表现出色，但其巨大的参数量(数十亿到数千亿)导致部署成本高昂，限制了在边缘设备、交互应用和大规模推理中的应用。

现有方法局限性

宽度剪枝(Width Pruning)：移除隐藏维度或通道，但破坏标准transformer架构，需要定制推理代码
深度剪枝(Depth Pruning)：移除整个transformer块，虽保持架构但会导致性能急剧下降
规模适应性差：现有方法在大模型上有效，但在小语言模型(SLM)上表现不佳
忽视语言特性：未考虑token的重要性差异，平等对待所有token

研究动机

作者通过分析发现：

不同规模模型的参数分布存在显著差异：小模型中词汇参数占比较大，大模型中FFN参数占主导
自然语言遵循Zipf分布，稀有token出现频率极低，对下游性能贡献有限

核心贡献

系统分析：首次系统性分析了不同规模LLM中embedding、FFN和attention参数的分布规律
COMPACT方法：提出了结合词汇剪枝和基于常见token加权FFN剪枝的新框架
架构兼容性：保持标准transformer架构，与现有推理框架兼容
规模自适应：在0.5B到70B参数的多个模型族上实现了SOTA性能

方法详解

参数分布分析

作者首先分析了现代decoder-only transformer的参数分布：

词汇参数： $N_{vocab} = 2VD$ （embedding和LM head层）
FFN参数： $N_{FFN} = 3LDI$ （L层，中间维度I）
注意力参数： $N_{attention} = 2LD^2(1 + \frac{1}{H})$ （H为头数比例）

随着模型规模增长， $N_{FFN}$ 和 $N_{attention}$ 按 $O(LD^2)$ 增长，而 $N_{vocab}$ 仅按 $O(D)$ 增长，因此小模型中词汇参数占比更大。

COMPACT架构

1. 词汇剪枝(Vocabulary Pruning)

原理：基于BPE tokenizer遵循Zipf分布的特性，移除最稀有的 $V-V'$ 个token
实现：直接删除embedding和LM head矩阵的对应行，以及tokenizer中的merge规则
优势：无需校准数据，计算高效

2. 基于常见token加权的FFN剪枝

传统的act²方法计算通道重要性为： $I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k$

COMPACT提出的common act²方法： $I_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{otherwise} \end{cases}$

其中 $S$ 是被剪枝的稀有token集合。

算法流程

算法1 COMPACT
输入：模型M，校准数据集D，目标词汇大小V'，目标中间维度I'
1. 识别最稀有的V-V'个token集合S
2. 在数据集D上运行前向传播，收集平方激活
3. 对每个通道k，使用common act²计算重要性Ik
4. 对每一层：剪枝I-I'个最不重要的通道
5. 剪枝词汇参数：移除embedding和LM head矩阵的最后V-V'行
6. 返回剪枝后的模型M'