Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.
- 论文ID: 2409.15371
- 标题: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
- 作者: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
- 分类: cs.CL cs.AI
- 发表时间: 2025年10月14日 (arXiv preprint)
- 论文链接: https://arxiv.org/abs/2409.15371v11
Low-Rank Adaptation (LoRA)是一种广泛采用的参数高效微调技术,但其收敛缓慢的问题催生了众多变体的发展。然而,现有方法往往无法同时改善性能、内存占用和计算效率。为了应对这一挑战,本文重新审视了LoRA收敛缓慢的根本原因。基于这些洞察,作者提出了Matrix Shard Sharing (MiSS)方法,该方法使用单个共享的可训练矩阵D(初始化为零)来更新原始权重矩阵的分片。为了同时确保计算效率、低内存占用和可扩展服务,作者引入了MiSSe。理论分析和实验结果均表明,该方法在不损害性能的情况下降低了优化复杂度,从而在性能、内存和效率之间实现了更有利的权衡。
大语言模型(LLMs)的全参数微调在计算上是禁止的,因此参数高效微调(PEFT)技术应运而生。LoRA作为最突出的PEFT方法之一,通过低秩分解来近似权重更新:ΔW≈BA,其中B∈Rd×r,A∈Rr×k,且r≪min(d,k)。
- 收敛缓慢:LoRA相比全参数微调收敛显著较慢
- 优化复杂性:需要同时更新矩阵A和B,增加了优化复杂度
- 权衡困难:现有LoRA变体难以在性能、内存和效率三个维度间取得平衡
通过分析S2FT和LoRA+等方法,作者发现LoRA收敛缓慢的关键原因是需要同时优化两个矩阵。基于"训练单个矩阵可以简化优化而不牺牲表达能力"的假设,作者提出了MiSS方法。
- 提出MiSS方法:一种具有分片共享机制的高效且适应性强的结构,在性能、内存效率和计算效率三个关键属性间实现有效平衡
- 理论与实验验证:通过大规模实验验证了MiSS在多样化数据集和模型架构上的优越性
- 全面的PEFT方法比较:提供了多种PEFT方法在内存使用、初始化开销和计算效率方面的综合评估
- Pareto前沿分析:通过映射这些维度的Pareto前沿,证明MiSS占据有利位置
给定预训练权重矩阵W0∈Rd×k,目标是学习一个参数高效的更新ΔW,使得微调后的模型在下游任务上表现良好,同时最小化可训练参数数量和计算开销。
MiSS将权重更新定义为通过扩展操作从小的可训练矩阵D生成的大矩阵:
W=W0+ΔW=W0+expand(D)y=W0x+expand(D)x
其中D∈Rr1×r2,(r1,r2)≪min(d,k)。
将输出维度d分割为N个分片,大小为{s1,s2,…,sN},其中∑i=1Nsi=d。对于每个分片i,其更新由D的第i行Di重复si次确定:
(expand(D))T=[(1s1D1)T(1s2D2)T…(1sNDN)T]
为避免显式形成大矩阵,MiSSe重新定义D∈Rr×d,将输入维度k分成r个块:
x=[x(1),x(2),…,x(r)],x(i)∈Rb×l×g
S=[∑j=1gx[:,:,j](1),∑j=1gx[:,:,j](2),…,∑j=1gx[:,:,j](r)]∈Rb×l×r
ΔWx=DTS,y=W0x+DTS
- 单矩阵优化:相比LoRA需要同时优化A和B两个矩阵,MiSS只需优化单个矩阵D,降低了优化复杂度
- 分片共享机制:通过重复矩阵结构实现低秩特性,同时保持表达能力
- 高效实现:MiSSe通过块级输入聚合避免显式存储大矩阵,显著降低内存使用
- 自然语言理解(NLU):GLUE基准数据集子集,包括MNLI、SST-2、CoLA、QNLI、MRPC
- 自然语言生成(NLG):
- 数学任务:MetaMathQA数据集(395k子集),评估GSM8K和MATH
- 代码任务:CodeFeedback数据集(100k子集),评估HumanEval和Mbpp
- NLU任务:准确率
- 数学任务:GSM8K和MATH基准上的准确率
- 代码任务:HumanEval和Mbpp上的通过率
- 效率指标:训练时间、内存使用、初始化时间
LoRA、PiSSA、DoRA、VeRA、AdaLoRA、ProLoRA、MoS等多种PEFT方法
- 优化器:AdamW
- 学习率:2e-5
- 批大小:64-128
- 学习率调度:余弦衰减
- MiSS rank设置:16-128(根据任务调整)
在RoBERTa-base上的GLUE基准测试中,MiSS在CoLA数据集上表现尤为突出,达到72.86的分数,显著超越LoRA(62.40)和PiSSA(67.28)。
在多个大语言模型上的实验结果显示:
LLaMA2-7B:
- GSM8K: MiSS(48.16) > PiSSA(43.89) > DoRA(42.93) > LoRA(40.75)
- Math: MiSS(8.58) > PiSSA(6.92) > DoRA(6.51) > LoRA(5.22)
- HumanEval: MiSS(23.63) > PiSSA(22.15) > DoRA(21.95) > LoRA(17.74)
Qwen3-4B:
- Math: MiSS(34.82) 远超其他方法,PiSSA(26.00)、DoRA(21.73)、LoRA(15.20)
初始梯度范数分析验证了MiSS的设计理念。实验表明,MiSS与其他改进的LoRA变体一样,具有比标准LoRA更大的初始梯度范数,这与更快的早期收敛相关。
| 方法 | 空间复杂度 | 时间复杂度 |
|---|
| Full | O(dk) | O(bld(d+k)) |
| LoRA | O(dr+rk) | O(blr(d+k)) |
| MiSS | O(dr) | O(bldk) |
| MiSSe | O(dr) | O(blr(d+k/r)) |
在LLaMA-3.2-3B上的综合评估显示,MiSS在性能-效率权衡中占据最优位置,实现了最佳的测试准确率(0.5080)同时保持较低的内存使用和训练时间。
在LLaMA2-7B上测试不同rank值的影响:
- rank=16: GSM8K(45.90), Math(3.77), 参数21.7M
- rank=32: GSM8K(46.18), Math(7.43), 参数43.5M
- rank=64: GSM8K(48.16), Math(8.58), 参数87.0M
- rank=128: GSM8K(53.49), Math(10.08), 参数174.0M
结果表明性能随rank单调递增,rank=64提供了良好的性能-参数权衡。
- 适应性改进:PiSSA、LoRA-GA、LoRA+等,主要通过改变初始化策略加速收敛
- 效率优化:VeRA、ProLoRA、MoS等,专注于降低计算和内存开销
相比现有方法,MiSS通过单矩阵优化策略在保持性能的同时显著提升效率,避免了PiSSA等方法的昂贵初始化过程,也不需要LoRA-GA等方法对优化器的特殊要求。
- 单矩阵优化:证明了单矩阵优化相比双矩阵优化能够降低优化复杂度并加速收敛
- 有效的权衡:MiSS在性能、内存和计算效率三个维度间实现了更好的平衡
- 广泛适用性:在多种模型架构和任务类型上均表现出一致的优越性
- 理论分析深度:虽然提供了复杂度分析,但对于为什么单矩阵优化更有效的理论解释还不够深入
- 超参数敏感性:对于不同任务和模型,rank参数的最优选择可能需要额外调优
- 扩展机制的通用性:当前的分片扩展策略可能不是最优的,还有改进空间
- 理论基础:深入研究单矩阵优化的理论基础
- 自适应rank选择:开发自动选择最优rank的方法
- 多模态扩展:将MiSS扩展到多模态任务
- 创新性强:提出的分片共享机制是一个新颖且有效的思路
- 实验充分:涵盖了多种模型、数据集和评价维度,实验设计合理
- 实用价值高:在保持性能的同时显著提升效率,具有很强的实用性
- 分析全面:从梯度范数、复杂度、Pareto前沿等多角度进行了深入分析
- 理论解释:对于为什么MiSS能够在单矩阵优化下保持表达能力的理论解释不够深入
- 基准比较:缺少与一些最新的PEFT方法的比较
- 长序列性能:没有充分测试在长序列任务上的表现
- 学术贡献:为PEFT领域提供了新的设计思路,可能启发更多相关研究
- 实用价值:方法简单有效,易于实现和部署
- 可复现性:提供了详细的实现细节和开源代码
- 资源受限环境:特别适合GPU内存有限的场景
- 大规模部署:由于其高效性,适合需要大规模部署的应用
- 多任务学习:可以作为多任务学习中的高效适配器
论文引用了LoRA、PiSSA、DoRA等重要的PEFT方法,以及GSM8K、MATH等标准评测基准,为相关研究提供了全面的背景和对比基础。
总体评价:这是一篇高质量的PEFT方法论文,提出的MiSS方法在理论上有一定创新性,实验验证充分,实用价值较高。论文的主要贡献在于通过单矩阵优化实现了性能-效率的更好权衡,为PEFT领域提供了新的研究方向。