Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
论文ID : 2510.09332标题 : FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference作者 : Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu机构 : National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University分类 : cs.CL cs.AI发表时间 : 2025年10月10日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.09332 大型语言模型虽然取得了卓越的性能,但其庞大的参数量阻碍了在资源受限硬件上的部署。低秩压缩可以减少内存使用和计算需求,但在所有层上应用统一的压缩比往往导致显著的性能下降,且现有方法在解码阶段表现不佳。为解决这些问题,本文提出了细粒度低秩压缩器(FLRC),能够高效地为每一层确定最优的秩分配,并结合渐进式低秩解码来维持文本生成质量。在多样化基准测试上的综合实验证明了FLRC的优越性,在摘要任务上相比最先进的低秩压缩方法实现了高达17%的ROUGE-L提升。
大型语言模型(LLM)面临的核心问题是:
部署困难 :巨大的参数量和高计算需求使得在移动设备和边缘服务器等资源受限环境中部署困难压缩效果不佳 :现有低秩压缩方法采用统一压缩比,忽略了不同层对压缩的容忍度差异解码性能下降 :现有方法主要关注预填充阶段,在多轮解码任务(如文本摘要)中性能显著下降实际部署需求 :随着LLM应用的普及,在资源受限设备上高效部署的需求日益迫切现有方法局限 :统一压缩策略无法充分利用模型结构的异质性解码质量保证 :文本生成任务对连续解码质量要求高,需要专门的优化策略提出Fisher-based层级秩分配算法 :基于梯度和权重的重要性度量,为每个投影层确定最优秩分配,相比ASVD方法搜索时间减少49倍引入渐进式低秩解码机制 :动态调整解码过程中的秩分配,早期token使用更多参数,后期逐渐减少,在保持生成质量的同时提高压缩率建立细粒度压缩框架 :将层级秩分配与渐进式解码相结合,形成完整的LLM压缩解决方案实现显著性能提升 :在摘要任务上相比现有方法ROUGE-L分数提升高达17.35%,同时在理解任务上也保持优异表现输入 :预训练的大型语言模型M,目标压缩率
输出 :压缩后的模型,在保持生成质量的前提下减少参数量和计算开销
约束 :在给定的参数预算下最大化模型性能
该算法的核心思想是为模型中的每个投影层分配不同的秩,基于其重要性进行差异化压缩。
重要性计算 :
对于每个层l中的投影p,重要性度量定义为:
αl,p = Σi (Gl,p[i] × Wl,p[i])²
其中Gl,p是梯度,Wl,p是权重参数。
秩分配策略 :
rl,p = round(αl,p/S × Rbudget)
其中S是总重要性分数,Rbudget是总秩预算。
算法流程 :
使用校准数据集计算各投影层的梯度 基于梯度和权重计算重要性分数 按重要性比例分配秩预算 生成层级秩分配方案 该机制基于观察:在文本生成中,早期token对整体连贯性和质量的影响更大。
动态秩调整 :
rl,p(t) = round(αl,p/S × Rbudget(t))
其中Rbudget(t)是第t个token的秩预算,满足非递增性质。
调度策略 :
早期token:使用较大的参数集合,保证生成质量 后期token:逐渐减少秩配置,提高整体压缩率 通过校准数据集确定最优调度方案 Fisher信息准则的应用 :结合梯度和权重信息评估投影重要性,比单纯基于权重幅度或梯度的方法更准确动态压缩范式 :突破静态压缩的限制,根据生成过程的特点动态调整压缩率细粒度优化 :从投影级别而非层级别进行优化,实现更精细的资源分配端到端框架 :将秩分配和动态解码统一在一个框架中,协同优化摘要任务 :DialogSum、CNN/DM理解任务 :Wikitext2(困惑度)、LM-Evaluation-Harness中的7个零样本任务校准数据 :
秩分配:Wikitext2训练集256个序列(长度2048) 调度器:DialogSum训练集500个样本 生成任务 :ROUGE-L、BERTScore理解任务 :困惑度、零样本准确率效率指标 :搜索时间、推理速度ASVD :基于激活感知的奇异值分解SVD-LLM :截断感知的数据白化方法消融实验 :分别测试FLRA和PLRD组件的贡献模型:LLaMA-2-7B-Chat、LLaMA-3-8B-Instruct等 压缩率:10%、20%、30%等不同级别 硬件:A100 GPU 基于SVD-LLM流程,应用FLRC的秩分配和渐进解码模块 在LLaMA-3-8B-Instruct上,20%压缩率下:
DialogSum ROUGE-L :FLRC 17.35% vs ASVD 0.10% vs SVD-LLM 0.24%CNN/DM ROUGE-L :FLRC 17.72% vs ASVD 0.54% vs SVD-LLM 6.29%在LLaMA-3-8B上,20%压缩率下:
Wikitext2困惑度 :FLRC 12.53 vs ASVD 3206.80 vs SVD-LLM 14.72平均零样本准确率 :FLRC 43.66% vs ASVD 31.58% vs SVD-LLM 41.63%搜索时间 :FLRC 3分钟 vs ASVD 147分钟(49倍加速)推理加速 :在offloading场景下最高可达2.12倍加速在LLaMA-3-8B-Instruct上,20%压缩率的DialogSum任务:
仅SVD-LLM:0.24% ROUGE-L SVD-LLM + FLRA:13.28% ROUGE-L SVD-LLM + FLRA + PLRD:17.35% ROUGE-L 结果表明两个组件都对性能提升有显著贡献。
通过重要性分析发现:
不同层的投影重要性差异巨大 down_proj通常具有最高重要性分数 后期层相比前期层对压缩更敏感 层级差异性 :模型不同层对压缩的容忍度存在显著差异解码敏感性 :生成任务对压缩比理解任务更敏感规模效应 :在更大模型上FLRC的优势更加明显通用性 :方法在不同模型架构和精度下都保持有效性模型压缩技术 :包括剪枝、量化、知识蒸馏等低秩分解方法 :基于SVD的参数矩阵分解技术动态推理 :根据输入或计算阶段调整模型配置相较于ASVD :提出更高效的秩分配算法,搜索时间大幅减少相较于SVD-LLM :引入动态解码机制,显著提升生成任务性能相较于其他分配方法 :Fisher-based方法比Hessian-based和Bayesian优化更高效准确效率优势 :单次迭代完成秩分配,避免了迭代优化的时间开销精度优势 :细粒度的投影级优化比层级或块级优化更精确适应性优势 :动态调整机制更好地适应生成任务的特点细粒度压缩的有效性 :投影级的差异化压缩显著优于统一压缩策略动态解码的必要性 :渐进式秩调整对维持生成质量至关重要方法的通用性 :FLRC在不同模型规模和任务类型上都表现优异实用价值 :大幅提升的搜索效率使方法具备实际部署价值校准数据依赖 :方法性能受校准数据集选择影响,不同数据集可能导致性能差异调度器开销 :动态秩分配引入额外的计算开销,需要进一步的工程优化内存绑定场景 :在内存受限环境下效果更佳,但在计算受限场景优势可能不明显工程优化 :专注于减少动态秩分配的开销,设计专用内核自适应调度 :开发更智能的调度算法,减少对校准数据的依赖多模态扩展 :将方法扩展到多模态大模型的压缩创新性强 :首次将Fisher信息准则应用于LLM的细粒度秩分配,提出动态解码新范式实验充分 :涵盖多种模型、任务和压缩率,消融实验设计合理结果显著 :在生成任务上取得突破性改进,解决了现有方法的关键痛点实用价值高 :大幅减少的搜索时间和良好的加速效果具备实际部署价值分析深入 :提供了丰富的分析实验,包括重要性可视化、敏感性分析等理论基础 :缺乏对为什么Fisher-based重要性度量最优的理论分析调度策略 :渐进式解码的调度策略主要基于经验,缺乏理论指导硬件优化 :动态秩分配的硬件实现细节不够详细对比范围 :主要与SVD-based方法对比,与其他压缩技术的比较有限学术贡献 :为LLM压缩领域提供了新的研究方向和技术路径实用价值 :显著的性能提升和效率改进具有重要的工业应用价值可复现性 :方法描述清晰,实验设置详细,具备良好的可复现性启发意义 :动态压缩的思想可能启发更多相关研究边缘部署 :特别适合移动设备和边缘服务器等资源受限环境内存受限场景 :在需要模型offloading的情况下效果尤为突出生成任务 :对文本摘要、对话生成等任务具有特殊价值大规模模型 :在更大的模型上优势更加明显论文引用了丰富的相关工作,主要包括:
Yuan et al., 2023 - ASVD方法 Wang et al., 2024 - SVD-LLM方法 Touvron et al., 2023 - LLaMA模型系列 多个基准数据集和评估工具的相关文献 总体评价 :这是一篇高质量的研究论文,针对LLM压缩领域的关键问题提出了创新性解决方案。方法设计合理,实验验证充分,结果显著,具有重要的学术价值和实用价值。虽然在理论分析和硬件优化方面还有改进空间,但整体上是该领域的重要贡献。