As large language models (LLMs) continue to scale in size, the computational overhead has become a major bottleneck for task-specific fine-tuning. While low-rank adaptation (LoRA) effectively curtails this cost by confining the weight updates to a low-dimensional subspace, such a restriction can hinder effectiveness and slow convergence. This contribution deals with these limitations by accumulating progressively a high-rank weight update from consecutive low-rank increments. Specifically, the per update optimal low-rank matrix is identified to minimize the loss function and closely approximate full fine-tuning. To endow efficient and seamless optimization without restarting, this optimal choice is formed by appropriately scaling the columns of the original low-rank matrix. Rigorous performance guarantees reveal that the optimal scaling can be found analytically. Extensive numerical tests with popular LLMs scaling up to 12 billion parameters demonstrate a consistent performance gain and fast convergence relative to state-of-the-art LoRA variants on diverse tasks including natural language understanding, commonsense reasoning, and mathematical problem solving.
论文ID : 2510.23818标题 : ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning作者 : Yilang Zhang, Xiaodong Yang, Yiwei Cai, Georgios B. Giannakis机构 : University of Minnesota - Twin Cities, Visa Research分类 : cs.LG提交时间 : 2025年10月27日论文链接 : https://arxiv.org/abs/2510.23818v1 随着大语言模型(LLMs)规模的不断扩大,计算开销已成为任务特定微调的主要瓶颈。虽然低秩适应(LoRA)通过将权重更新限制在低维子空间中有效降低了成本,但这种限制会阻碍效果并减慢收敛速度。本研究通过逐步累积连续低秩增量来形成高秩权重更新,解决了这些局限性。具体而言,识别每次更新的最优低秩矩阵以最小化损失函数并紧密逼近全量微调。为了实现高效无缝的优化而无需重启,这种最优选择通过适当缩放原始低秩矩阵的列来形成。严格的性能保证表明最优缩放可以通过解析方法找到。在高达120亿参数的流行LLMs上进行的广泛数值测试表明,相对于最先进的LoRA变体,该方法在自然语言理解、常识推理和数学问题求解等多样化任务上实现了一致的性能提升和快速收敛。
随着大语言模型规模的快速增长,传统的全量微调方法因其巨大的计算负担变得越来越不可行。例如,即使是Llama 4 Scout的最小变体也包含1090亿参数,即使使用半精度,全量微调仍需要超过1TB的GPU内存和大量的时间。
LoRA的限制 :虽然LoRA通过将权重更新参数化为两个高瘦矩阵的外积有效降低了计算成本,但其固定的低维子空间限制导致性能下降和收敛缓慢。高秩更新的挑战 :现有的高秩更新方法如ReLoRA需要重启优化,MoRA需要精心设计的非线性映射,HiRA的Hadamard积操作复杂度高。本文旨在通过动态识别最优低秩适配器来克服LoRA的局限性,通过堆叠逐步的低秩增量来形成高秩权重更新,同时保持计算效率。
理论分析 :证明了最优低秩适配器的充分必要条件,建立了需要截断SVD的条件,但指出其计算开销过大。ScaLoRA方法 :提出了通过列缩放变换来限制新适配器的方法,在解析形式下可证明地识别全局最优适配器和可处理的矩估计器。实验验证 :在DeBERTaV3-base、LLaMA-2-7B、LLaMA-3-8B和Gemma-3-12B-pt等模型上进行了全面测试,验证了理论分析并确认了ScaLoRA的优越性能和加速收敛。考虑大模型的一般权重矩阵 W ∈ R m × n W \in \mathbb{R}^{m \times n} W ∈ R m × n ,LoRA将其分解为 W = W p t + W f t W = W^{pt} + W^{ft} W = W pt + W f t ,其中 W p t W^{pt} W pt 是冻结的预训练权重,W f t : = A B T W^{ft} := AB^T W f t := A B T 是可学习的微调更新,A ∈ R m × r A \in \mathbb{R}^{m \times r} A ∈ R m × r ,B ∈ R n × r B \in \mathbb{R}^{n \times r} B ∈ R n × r ,且 r ≪ m , n r \ll m,n r ≪ m , n 。
与LoRA固定在 A t B t T A_tB_t^T A t B t T 不同,ScaLoRA的关键思想是动态识别每次迭代的"最优"低秩适配器,最大化损失下降:
W t = W p t + A t B t T = ( W p t + A t B t T − A ~ t B ~ t T ) ⏟ 合并并冻结 + A ~ t B ~ t T ⏟ 可学习 W_t = W^{pt} + A_tB_t^T = \underbrace{(W^{pt} + A_tB_t^T - \tilde{A}_t\tilde{B}_t^T)}_{\text{合并并冻结}} + \underbrace{\tilde{A}_t\tilde{B}_t^T}_{\text{可学习}} W t = W pt + A t B t T = 合并并冻结 ( W pt + A t B t T − A ~ t B ~ t T ) + 可学习 A ~ t B ~ t T
定理1(最优条件) :考虑SVD ∇ ℓ ( W t ) = U t Σ t V t T \nabla\ell(W_t) = U_t\Sigma_tV_t^T ∇ ℓ ( W t ) = U t Σ t V t T ,如果 rank ( ∇ ℓ ( W t ) ) ≥ 2 r , ∀ t \text{rank}(\nabla\ell(W_t)) \geq 2r, \forall t rank ( ∇ ℓ ( W t )) ≥ 2 r , ∀ t 且满足Lipschitz平滑假设,则 ( A ~ t ∗ , B ~ t ∗ ) (\tilde{A}_t^*, \tilde{B}_t^*) ( A ~ t ∗ , B ~ t ∗ ) 最小化损失上界当且仅当:
A ~ t ∗ = 1 L η [ U t ] A t P t , B ~ t ∗ = 1 L η [ V t ] B t Q t \tilde{A}_t^* = \frac{1}{\sqrt{L\eta}}[U_t]_{\mathcal{A}_t}P_t, \quad \tilde{B}_t^* = \frac{1}{\sqrt{L\eta}}[V_t]_{\mathcal{B}_t}Q_t A ~ t ∗ = L η 1 [ U t ] A t P t , B ~ t ∗ = L η 1 [ V t ] B t Q t
其中 A t ∪ B t = { 1 , … , 2 r } \mathcal{A}_t \cup \mathcal{B}_t = \{1,\ldots,2r\} A t ∪ B t = { 1 , … , 2 r } ,∣ A t ∣ = ∣ B t ∣ = r |\mathcal{A}_t| = |\mathcal{B}_t| = r ∣ A t ∣ = ∣ B t ∣ = r ,P t , Q t ∈ O ( r ) P_t, Q_t \in O(r) P t , Q t ∈ O ( r ) 。
为避免SVD的计算开销,ScaLoRA限制为 A ~ t = α t A t \tilde{A}_t = \alpha_t A_t A ~ t = α t A t ,B ~ t = β t B t \tilde{B}_t = \beta_t B_t B ~ t = β t B t 。
定理3(标量缩放最优解) :在假设1-2下,目标函数的全局最小值由以下给出:
( α t ∗ , β t ∗ ) = { ( ± ∥ A t T ∇ ℓ ( W t ) ∥ F L η ∥ A t A t T ∇ ℓ ( W t ) ∥ F , 0 ) if C t A > 0 , C t B ≤ 0 ( 0 , ± ∥ ∇ ℓ ( W t ) B t ∥ F L η ∥ ∇ ℓ ( W t ) B t B t T ∥ F ) if C t A ≤ 0 , C t B > 0 ( ± C t A L η C t , ± C t B L η C t ) if C t A ≥ 0 , C t B ≥ 0 , C t > 0 (\alpha_t^*, \beta_t^*) = \begin{cases}
\left(\pm\frac{\|A_t^T\nabla\ell(W_t)\|_F}{\sqrt{L\eta\|A_tA_t^T\nabla\ell(W_t)\|_F}}, 0\right) & \text{if } C_t^A > 0, C_t^B \leq 0 \\
\left(0, \pm\frac{\|\nabla\ell(W_t)B_t\|_F}{\sqrt{L\eta\|\nabla\ell(W_t)B_tB_t^T\|_F}}\right) & \text{if } C_t^A \leq 0, C_t^B > 0 \\
\left(\pm\sqrt{\frac{C_t^A}{L\eta C_t}}, \pm\sqrt{\frac{C_t^B}{L\eta C_t}}\right) & \text{if } C_t^A \geq 0, C_t^B \geq 0, C_t > 0
\end{cases} ( α t ∗ , β t ∗ ) = ⎩ ⎨ ⎧ ( ± L η ∥ A t A t T ∇ ℓ ( W t ) ∥ F ∥ A t T ∇ ℓ ( W t ) ∥ F , 0 ) ( 0 , ± L η ∥∇ ℓ ( W t ) B t B t T ∥ F ∥∇ ℓ ( W t ) B t ∥ F ) ( ± L η C t C t A , ± L η C t C t B ) if C t A > 0 , C t B ≤ 0 if C t A ≤ 0 , C t B > 0 if C t A ≥ 0 , C t B ≥ 0 , C t > 0
为了提高拟合能力,ScaLoRA进一步考虑列缩放 A ~ t = A t diag ( α t ) \tilde{A}_t = A_t\text{diag}(\alpha_t) A ~ t = A t diag ( α t ) ,B ~ t = B t diag ( β t ) \tilde{B}_t = B_t\text{diag}(\beta_t) B ~ t = B t diag ( β t ) 。
定理5(列缩放最优解) :如果线性方程组 [ ( S t A ⊤ S t A ) ⊙ ( S t B ⊤ S t B ) ] v t = λ t [(S_t^{A\top}S_t^A) \odot (S_t^{B\top}S_t^B)]v_t = \lambda_t [( S t A ⊤ S t A ) ⊙ ( S t B ⊤ S t B )] v t = λ t 有非负解 v t ∈ R + 2 r v_t \in \mathbb{R}_+^{2r} v t ∈ R + 2 r ,则全局最小值为:
[ α t ∗ β t ∗ ] = ± 1 L η v t ∘ 1 2 \begin{bmatrix} \alpha_t^* \\ \beta_t^* \end{bmatrix} = \pm\frac{1}{\sqrt{L\eta}}v_t^{\circ\frac{1}{2}} [ α t ∗ β t ∗ ] = ± L η 1 v t ∘ 2 1
ScaLoRA采用混合缩放策略:
当线性系统有正解时,使用列缩放 否则,使用标量缩放 根据相应的引理更新矩估计器 时间复杂度 :O ( m n r + ( m + n + r ) r 2 ) O(mnr + (m+n+r)r^2) O ( mn r + ( m + n + r ) r 2 ) 空间复杂度 :O ( ( m + n + r ) r ) O((m+n+r)r) O (( m + n + r ) r ) ScaLoRA-I变体 :每I次迭代执行一次,时间复杂度摊销为 O ( ( m n r + ( m + n + r ) r 2 ) / I ) O((mnr+(m+n+r)r^2)/I) O (( mn r + ( m + n + r ) r 2 ) / I ) GLUE基准 :8个自然语言理解任务常识推理 :BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC-easy, ARC-challenge, OpenBookQA数学问题求解 :MetaMathQA (训练), GSM8K和MATH (测试)DeBERTaV3-base (184M参数):用于GLUE任务LLaMA-2-7B 和 LLaMA-3-8B :用于常识推理Gemma-3-12B-pt :用于数学问题求解LoRA (基线) MoRA:高秩更新变体 HiRA:Hadamard高秩适应 LoRA (r=32):高秩LoRA作为上界 LoRA秩:r=4 (GLUE), r=8 (常识推理和数学) 优化器:AdamW 学习率:通过网格搜索选择 评价指标:准确率、F1分数、Matthews相关系数等 在DeBERTaV3-base上的结果显示:
ScaLoRA在8个任务中的7个达到最佳性能 平均性能提升0.5%+ 在RTE任务上达到87.61±0.34的准确率,显著优于其他方法 LLaMA-2-7B :
ScaLoRA:74.51% (平均) ScaLoRA-I:74.75% (平均) LoRA:73.63% (平均) 性能提升约1% LLaMA-3-8B :
ScaLoRA:77.85% (平均) ScaLoRA-I:77.57% (平均) LoRA:76.83% (平均) 甚至超过了LoRA (r=32)的77.54% 在Gemma-3-12B上:
GSM8K :ScaLoRA-I (82.11%) vs LoRA (81.20%)MATH :ScaLoRA-I (37.96%) vs LoRA (37.20%)使用LLaMA-3-8B的开销比较:
时间开销 :ScaLoRA比LoRA增加约50%,但ScaLoRA-I开销可忽略内存开销 :ScaLoRA仅增加0.01GB,远低于HiRA的7.83GB秩增长 :ScaLoRA逐渐将权重更新的秩从初始的4增加到平均54收敛速度 :ScaLoRA收敛明显快于vanilla LoRA条件满足率 :约80%的LoRA层满足列缩放的非负条件DoRA :将权重分解为幅度和方向分量QLoRA :量化预训练权重以进一步降低计算成本FourierFT :用谱系数替代低秩矩阵Flora :利用随机投影编码和解码权重梯度ReLoRA :级联低秩适配器但需要重启优化MoRA :用非线性映射替代线性矩阵乘法HiRA :参数化权重更新为低秩矩阵与预训练权重的Hadamard积ScaLoRA通过动态最优缩放成功实现了高秩权重更新 理论分析提供了解析形式的最优解 实验证明了在多种任务上的一致性能提升和快速收敛 计算开销 :相比LoRA增加了约50%的计算时间存储需求 :需要存储完整的权重矩阵而非仅低维适配器可扩展性 :随着模型规模增长,计算成本限制了可扩展性进一步优化计算效率 探索更高效的高秩更新策略 扩展到更大规模的模型 理论严谨 :提供了完整的数学分析和证明方法创新 :巧妙地通过缩放避免了SVD的计算开销实验全面 :涵盖了多种任务和模型规模实用性强 :ScaLoRA-I变体平衡了性能和效率计算开销 :仍然比原始LoRA有显著的计算增加存储限制 :完整权重矩阵的存储可能成为瓶颈理论假设 :某些假设在实际应用中可能不完全满足学术贡献 :为参数高效微调提供了新的理论框架实用价值 :在保持效率的同时显著提升了性能可复现性 :提供了完整的算法和实现细节需要高质量微调但计算资源有限的场景 对收敛速度有较高要求的应用 中等规模模型的高效微调 论文引用了62篇相关文献,涵盖了LoRA及其变体、参数高效微调、大语言模型等相关领域的重要工作,为研究提供了坚实的理论基础。
总结 :ScaLoRA是一个在理论和实践上都有重要贡献的工作,通过巧妙的数学分析解决了LoRA的核心局限性,在保持计算效率的同时实现了显著的性能提升。该方法为大语言模型的参数高效微调提供了新的思路和工具。