2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.
Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
academic

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

基本信息

  • 论文ID: 2510.09332
  • 标题: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
  • 作者: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
  • 机构: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
  • 分类: cs.CL cs.AI
  • 发表时间: 2025年10月10日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.09332

摘要

大型语言模型虽然取得了卓越的性能,但其庞大的参数量阻碍了在资源受限硬件上的部署。低秩压缩可以减少内存使用和计算需求,但在所有层上应用统一的压缩比往往导致显著的性能下降,且现有方法在解码阶段表现不佳。为解决这些问题,本文提出了细粒度低秩压缩器(FLRC),能够高效地为每一层确定最优的秩分配,并结合渐进式低秩解码来维持文本生成质量。在多样化基准测试上的综合实验证明了FLRC的优越性,在摘要任务上相比最先进的低秩压缩方法实现了高达17%的ROUGE-L提升。

研究背景与动机

问题定义

大型语言模型(LLM)面临的核心问题是:

  1. 部署困难:巨大的参数量和高计算需求使得在移动设备和边缘服务器等资源受限环境中部署困难
  2. 压缩效果不佳:现有低秩压缩方法采用统一压缩比,忽略了不同层对压缩的容忍度差异
  3. 解码性能下降:现有方法主要关注预填充阶段,在多轮解码任务(如文本摘要)中性能显著下降

研究动机

  1. 实际部署需求:随着LLM应用的普及,在资源受限设备上高效部署的需求日益迫切
  2. 现有方法局限:统一压缩策略无法充分利用模型结构的异质性
  3. 解码质量保证:文本生成任务对连续解码质量要求高,需要专门的优化策略

核心贡献

  1. 提出Fisher-based层级秩分配算法:基于梯度和权重的重要性度量,为每个投影层确定最优秩分配,相比ASVD方法搜索时间减少49倍
  2. 引入渐进式低秩解码机制:动态调整解码过程中的秩分配,早期token使用更多参数,后期逐渐减少,在保持生成质量的同时提高压缩率
  3. 建立细粒度压缩框架:将层级秩分配与渐进式解码相结合,形成完整的LLM压缩解决方案
  4. 实现显著性能提升:在摘要任务上相比现有方法ROUGE-L分数提升高达17.35%,同时在理解任务上也保持优异表现

方法详解

任务定义

输入:预训练的大型语言模型M,目标压缩率 输出:压缩后的模型,在保持生成质量的前提下减少参数量和计算开销 约束:在给定的参数预算下最大化模型性能

模型架构

1. Fisher-based层级秩分配

该算法的核心思想是为模型中的每个投影层分配不同的秩,基于其重要性进行差异化压缩。

重要性计算: 对于每个层l中的投影p,重要性度量定义为:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

其中Gl,p是梯度,Wl,p是权重参数。

秩分配策略

rl,p = round(αl,p/S × Rbudget)

其中S是总重要性分数,Rbudget是总秩预算。

算法流程

  1. 使用校准数据集计算各投影层的梯度
  2. 基于梯度和权重计算重要性分数
  3. 按重要性比例分配秩预算
  4. 生成层级秩分配方案

2. 渐进式低秩解码

该机制基于观察:在文本生成中,早期token对整体连贯性和质量的影响更大。

动态秩调整

rl,p(t) = round(αl,p/S × Rbudget(t))

其中Rbudget(t)是第t个token的秩预算,满足非递增性质。

调度策略

  • 早期token:使用较大的参数集合,保证生成质量
  • 后期token:逐渐减少秩配置,提高整体压缩率
  • 通过校准数据集确定最优调度方案

技术创新点

  1. Fisher信息准则的应用:结合梯度和权重信息评估投影重要性,比单纯基于权重幅度或梯度的方法更准确
  2. 动态压缩范式:突破静态压缩的限制,根据生成过程的特点动态调整压缩率
  3. 细粒度优化:从投影级别而非层级别进行优化,实现更精细的资源分配
  4. 端到端框架:将秩分配和动态解码统一在一个框架中,协同优化

实验设置

数据集

  1. 摘要任务:DialogSum、CNN/DM
  2. 理解任务:Wikitext2(困惑度)、LM-Evaluation-Harness中的7个零样本任务
  3. 校准数据
    • 秩分配:Wikitext2训练集256个序列(长度2048)
    • 调度器:DialogSum训练集500个样本

评价指标

  1. 生成任务:ROUGE-L、BERTScore
  2. 理解任务:困惑度、零样本准确率
  3. 效率指标:搜索时间、推理速度

对比方法

  1. ASVD:基于激活感知的奇异值分解
  2. SVD-LLM:截断感知的数据白化方法
  3. 消融实验:分别测试FLRA和PLRD组件的贡献

实现细节

  • 模型:LLaMA-2-7B-Chat、LLaMA-3-8B-Instruct等
  • 压缩率:10%、20%、30%等不同级别
  • 硬件:A100 GPU
  • 基于SVD-LLM流程,应用FLRC的秩分配和渐进解码模块

实验结果

主要结果

生成任务性能

在LLaMA-3-8B-Instruct上,20%压缩率下:

  • DialogSum ROUGE-L:FLRC 17.35% vs ASVD 0.10% vs SVD-LLM 0.24%
  • CNN/DM ROUGE-L:FLRC 17.72% vs ASVD 0.54% vs SVD-LLM 6.29%

理解任务性能

在LLaMA-3-8B上,20%压缩率下:

  • Wikitext2困惑度:FLRC 12.53 vs ASVD 3206.80 vs SVD-LLM 14.72
  • 平均零样本准确率:FLRC 43.66% vs ASVD 31.58% vs SVD-LLM 41.63%

效率提升

  • 搜索时间:FLRC 3分钟 vs ASVD 147分钟(49倍加速)
  • 推理加速:在offloading场景下最高可达2.12倍加速

消融实验

在LLaMA-3-8B-Instruct上,20%压缩率的DialogSum任务:

  • 仅SVD-LLM:0.24% ROUGE-L
  • SVD-LLM + FLRA:13.28% ROUGE-L
  • SVD-LLM + FLRA + PLRD:17.35% ROUGE-L

结果表明两个组件都对性能提升有显著贡献。

案例分析

通过重要性分析发现:

  • 不同层的投影重要性差异巨大
  • down_proj通常具有最高重要性分数
  • 后期层相比前期层对压缩更敏感

实验发现

  1. 层级差异性:模型不同层对压缩的容忍度存在显著差异
  2. 解码敏感性:生成任务对压缩比理解任务更敏感
  3. 规模效应:在更大模型上FLRC的优势更加明显
  4. 通用性:方法在不同模型架构和精度下都保持有效性

相关工作

主要研究方向

  1. 模型压缩技术:包括剪枝、量化、知识蒸馏等
  2. 低秩分解方法:基于SVD的参数矩阵分解技术
  3. 动态推理:根据输入或计算阶段调整模型配置

本文与相关工作的关系

  1. 相较于ASVD:提出更高效的秩分配算法,搜索时间大幅减少
  2. 相较于SVD-LLM:引入动态解码机制,显著提升生成任务性能
  3. 相较于其他分配方法:Fisher-based方法比Hessian-based和Bayesian优化更高效准确

优势对比

  1. 效率优势:单次迭代完成秩分配,避免了迭代优化的时间开销
  2. 精度优势:细粒度的投影级优化比层级或块级优化更精确
  3. 适应性优势:动态调整机制更好地适应生成任务的特点

结论与讨论

主要结论

  1. 细粒度压缩的有效性:投影级的差异化压缩显著优于统一压缩策略
  2. 动态解码的必要性:渐进式秩调整对维持生成质量至关重要
  3. 方法的通用性:FLRC在不同模型规模和任务类型上都表现优异
  4. 实用价值:大幅提升的搜索效率使方法具备实际部署价值

局限性

  1. 校准数据依赖:方法性能受校准数据集选择影响,不同数据集可能导致性能差异
  2. 调度器开销:动态秩分配引入额外的计算开销,需要进一步的工程优化
  3. 内存绑定场景:在内存受限环境下效果更佳,但在计算受限场景优势可能不明显

未来方向

  1. 工程优化:专注于减少动态秩分配的开销,设计专用内核
  2. 自适应调度:开发更智能的调度算法,减少对校准数据的依赖
  3. 多模态扩展:将方法扩展到多模态大模型的压缩

深度评价

优点

  1. 创新性强:首次将Fisher信息准则应用于LLM的细粒度秩分配,提出动态解码新范式
  2. 实验充分:涵盖多种模型、任务和压缩率,消融实验设计合理
  3. 结果显著:在生成任务上取得突破性改进,解决了现有方法的关键痛点
  4. 实用价值高:大幅减少的搜索时间和良好的加速效果具备实际部署价值
  5. 分析深入:提供了丰富的分析实验,包括重要性可视化、敏感性分析等

不足

  1. 理论基础:缺乏对为什么Fisher-based重要性度量最优的理论分析
  2. 调度策略:渐进式解码的调度策略主要基于经验,缺乏理论指导
  3. 硬件优化:动态秩分配的硬件实现细节不够详细
  4. 对比范围:主要与SVD-based方法对比,与其他压缩技术的比较有限

影响力

  1. 学术贡献:为LLM压缩领域提供了新的研究方向和技术路径
  2. 实用价值:显著的性能提升和效率改进具有重要的工业应用价值
  3. 可复现性:方法描述清晰,实验设置详细,具备良好的可复现性
  4. 启发意义:动态压缩的思想可能启发更多相关研究

适用场景

  1. 边缘部署:特别适合移动设备和边缘服务器等资源受限环境
  2. 内存受限场景:在需要模型offloading的情况下效果尤为突出
  3. 生成任务:对文本摘要、对话生成等任务具有特殊价值
  4. 大规模模型:在更大的模型上优势更加明显

参考文献

论文引用了丰富的相关工作,主要包括:

  1. Yuan et al., 2023 - ASVD方法
  2. Wang et al., 2024 - SVD-LLM方法
  3. Touvron et al., 2023 - LLaMA模型系列
  4. 多个基准数据集和评估工具的相关文献

总体评价:这是一篇高质量的研究论文,针对LLM压缩领域的关键问题提出了创新性解决方案。方法设计合理,实验验证充分,结果显著,具有重要的学术价值和实用价值。虽然在理论分析和硬件优化方面还有改进空间,但整体上是该领域的重要贡献。