2025-11-20T05:49:14.768535

MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure

Kang, Yin

Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.

academic

基本信息

论文ID: 2409.15371
标题: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
作者: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
分类: cs.CL cs.AI
发表时间: 2025年10月14日 (arXiv preprint)
论文链接: https://arxiv.org/abs/2409.15371v11

摘要

Low-Rank Adaptation (LoRA)是一种广泛采用的参数高效微调技术，但其收敛缓慢的问题催生了众多变体的发展。然而，现有方法往往无法同时改善性能、内存占用和计算效率。为了应对这一挑战，本文重新审视了LoRA收敛缓慢的根本原因。基于这些洞察，作者提出了Matrix Shard Sharing (MiSS)方法，该方法使用单个共享的可训练矩阵 $\boldsymbol{D}$ （初始化为零）来更新原始权重矩阵的分片。为了同时确保计算效率、低内存占用和可扩展服务，作者引入了MiSS $^e$ 。理论分析和实验结果均表明，该方法在不损害性能的情况下降低了优化复杂度，从而在性能、内存和效率之间实现了更有利的权衡。

研究背景与动机

问题定义

大语言模型(LLMs)的全参数微调在计算上是禁止的，因此参数高效微调(PEFT)技术应运而生。LoRA作为最突出的PEFT方法之一，通过低秩分解来近似权重更新： $\Delta W \approx BA$ ，其中 $B \in \mathbb{R}^{d \times r}$ ， $A \in \mathbb{R}^{r \times k}$ ，且 $r \ll \min(d,k)$ 。

现有方法的局限性

收敛缓慢：LoRA相比全参数微调收敛显著较慢
优化复杂性：需要同时更新矩阵A和B，增加了优化复杂度
权衡困难：现有LoRA变体难以在性能、内存和效率三个维度间取得平衡

研究动机

通过分析S2FT和LoRA+等方法，作者发现LoRA收敛缓慢的关键原因是需要同时优化两个矩阵。基于"训练单个矩阵可以简化优化而不牺牲表达能力"的假设，作者提出了MiSS方法。

核心贡献

提出MiSS方法：一种具有分片共享机制的高效且适应性强的结构，在性能、内存效率和计算效率三个关键属性间实现有效平衡
理论与实验验证：通过大规模实验验证了MiSS在多样化数据集和模型架构上的优越性
全面的PEFT方法比较：提供了多种PEFT方法在内存使用、初始化开销和计算效率方面的综合评估
Pareto前沿分析：通过映射这些维度的Pareto前沿，证明MiSS占据有利位置

方法详解

任务定义

给定预训练权重矩阵 $W_0 \in \mathbb{R}^{d \times k}$ ，目标是学习一个参数高效的更新 $\Delta W$ ，使得微调后的模型在下游任务上表现良好，同时最小化可训练参数数量和计算开销。

模型架构

MiSS基本形式

MiSS将权重更新定义为通过扩展操作从小的可训练矩阵 $D$ 生成的大矩阵：

$W = W_0 + \Delta W = W_0 + \text{expand}(D)$ $y = W_0x + \text{expand}(D)x$

其中 $D \in \mathbb{R}^{r_1 \times r_2}$ ， $(r_1, r_2) \ll \min(d,k)$ 。

扩展机制

将输出维度 $d$ 分割为 $N$ 个分片，大小为 $\{s_1, s_2, \ldots, s_N\}$ ，其中 $\sum_{i=1}^N s_i = d$ 。对于每个分片 $i$ ，其更新由 $D$ 的第 $i$ 行 $D_i$ 重复 $s_i$ 次确定：

$(\text{expand}(D))^T = [(1_{s_1}D_1)^T \quad (1_{s_2}D_2)^T \quad \ldots \quad (1_{s_N}D_N)^T]$

MiSS $^e$ 高效实现

为避免显式形成大矩阵，MiSS $^e$ 重新定义 $D \in \mathbb{R}^{r \times d}$ ，将输入维度 $k$ 分成 $r$ 个块：

$x = [x^{(1)}, x^{(2)}, \ldots, x^{(r)}], \quad x^{(i)} \in \mathbb{R}^{b \times l \times g}$

$S = \left[\sum_{j=1}^g x^{(1)}_{[:,:,j]}, \sum_{j=1}^g x^{(2)}_{[:,:,j]}, \ldots, \sum_{j=1}^g x^{(r)}_{[:,:,j]}\right] \in \mathbb{R}^{b \times l \times r}$

$\Delta Wx = D^T S, \quad y = W_0x + D^T S$

技术创新点

单矩阵优化：相比LoRA需要同时优化A和B两个矩阵，MiSS只需优化单个矩阵D，降低了优化复杂度
分片共享机制：通过重复矩阵结构实现低秩特性，同时保持表达能力
高效实现：MiSS $^e$ 通过块级输入聚合避免显式存储大矩阵，显著降低内存使用

实验设置

数据集

自然语言理解(NLU)：GLUE基准数据集子集，包括MNLI、SST-2、CoLA、QNLI、MRPC
自然语言生成(NLG)：
- 数学任务：MetaMathQA数据集(395k子集)，评估GSM8K和MATH
- 代码任务：CodeFeedback数据集(100k子集)，评估HumanEval和Mbpp