2025-11-20T05:49:14.768535

MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure

Kang, Yin

Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.

academic

MiSS: LoRAのトレードオフの再検討と効率的なシャード共有構造

基本情報

論文ID: 2409.15371
タイトル: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
著者: Jiale Kang (Yuanshi Inc)、Qingyu Yin (浙江大学)
分類: cs.CL cs.AI
発表日時: 2025年10月14日 (arXiv preprint)
論文リンク: https://arxiv.org/abs/2409.15371v11

要約

Low-Rank Adaptation (LoRA)は広く採用されているパラメータ効率的ファインチューニング技術ですが、その収束の遅さの問題が多くの変種の開発を促してきました。しかし、既存の方法は性能、メモリ使用量、計算効率を同時に改善することができません。この課題に対処するため、本論文はLoRAの収束が遅い根本原因を再検討しています。これらの知見に基づいて、著者らはMatrix Shard Sharing (MiSS)方法を提案しました。この方法は、単一の共有可訓練行列 $\boldsymbol{D}$ （ゼロで初期化）を使用して、元の重み行列のシャードを更新します。計算効率、低メモリ使用量、スケーラブルなサービスを同時に確保するため、著者らはMiSS $^e$ を導入しました。理論分析と実験結果の両方が、この方法が性能を損なうことなく最適化の複雑さを低減し、性能、メモリ、効率の間でより有利なトレードオフを実現することを示しています。

研究背景と動機

問題定義

大規模言語モデル(LLMs)の全パラメータファインチューニングは計算上禁止されているため、パラメータ効率的ファインチューニング(PEFT)技術が生まれました。LoRAは最も優れたPEFT方法の1つとして、低ランク分解を通じて重み更新を近似します： $\Delta W \approx BA$ 、ここで $B \in \mathbb{R}^{d \times r}$ 、 $A \in \mathbb{R}^{r \times k}$ 、かつ $r \ll \min(d,k)$ です。

既存方法の限界

収束の遅さ: LoRAは全パラメータファインチューニングと比較して有意に遅い収束を示す
最適化の複雑さ: 行列AとBを同時に更新する必要があり、最適化の複雑さが増加する
トレードオフの困難さ: 既存のLoRA変種は性能、メモリ、効率の3つの次元間でバランスを取ることが困難である

研究動機

S2FTおよびLoRA+などの方法を分析することにより、著者らはLoRAの収束が遅い主な原因は2つの行列を同時に最適化する必要があることを発見しました。「単一の行列を訓練することは表現能力を犠牲にすることなく最適化を簡素化できる」という仮説に基づいて、著者らはMiSS方法を提案しました。

核心的貢献

MiSS方法の提案: シャード共有メカニズムを備えた効率的で適応的な構造であり、性能、メモリ効率、計算効率の3つの重要な属性間で効果的なバランスを実現する
理論と実験の検証: 多様なデータセットとモデルアーキテクチャ上でMiSSの優位性を大規模実験で検証
包括的なPEFT方法の比較: メモリ使用量、初期化オーバーヘッド、計算効率の観点から複数のPEFT方法の包括的な評価を提供
パレート最適フロンティア分析: これらの次元のパレート最適フロンティアをマッピングすることにより、MiSSが有利な位置を占めることを証明

方法の詳細

タスク定義

事前訓練された重み行列 $W_0 \in \mathbb{R}^{d \times k}$ が与えられた場合、目標はパラメータ効率的な更新 $\Delta W$ を学習し、ファインチューニングされたモデルが下流タスクで良好に機能し、同時に訓練可能なパラメータ数と計算オーバーヘッドを最小化することです。

モデルアーキテクチャ

MiSSの基本形式

MiSSは重み更新を、小さな訓練可能行列 $D$ から拡張操作を通じて生成される大きな行列として定義します：

$W = W_0 + \Delta W = W_0 + \text{expand}(D)$ $y = W_0x + \text{expand}(D)x$

ここで $D \in \mathbb{R}^{r_1 \times r_2}$ 、 $(r_1, r_2) \ll \min(d,k)$ です。

拡張メカニズム

出力次元 $d$ を $N$ 個のシャードに分割し、サイズを $\{s_1, s_2, \ldots, s_N\}$ とします。ここで $\sum_{i=1}^N s_i = d$ です。各シャード $i$ について、その更新は $D$ の第 $i$ 行 $D_i$ を $s_i$ 回繰り返すことで決定されます：

$(\text{expand}(D))^T = [(1_{s_1}D_1)^T \quad (1_{s_2}D_2)^T \quad \ldots \quad (1_{s_N}D_N)^T]$

MiSS $^e$ 効率的実装

大きな行列を明示的に形成することを避けるため、MiSS $^e$ は $D \in \mathbb{R}^{r \times d}$ を再定義し、入力次元 $k$ を $r$ 個のブロックに分割します：

$x = [x^{(1)}, x^{(2)}, \ldots, x^{(r)}], \quad x^{(i)} \in \mathbb{R}^{b \times l \times g}$

$S = \left[\sum_{j=1}^g x^{(1)}_{[:,:,j]}, \sum_{j=1}^g x^{(2)}_{[:,:,j]}, \ldots, \sum_{j=1}^g x^{(r)}_{[:,:,j]}\right] \in \mathbb{R}^{b \times l \times r}$

$\Delta Wx = D^T S, \quad y = W_0x + D^T S$

技術的革新点

単一行列最適化: LoRAがAとBの2つの行列を同時に最適化する必要があるのに対し、MiSSは単一の行列Dのみを最適化する必要があり、最適化の複雑さを低減する
シャード共有メカニズム: 行列構造の繰り返しを通じて低ランク特性を実現しながら、表現能力を維持する
効率的実装: MiSS $^e$ はブロックレベルの入力集約を通じて大きな行列の明示的な保存を避け、メモリ使用量を大幅に削減する

実験設定

データセット

自然言語理解(NLU): GLUEベンチマークのサブセット、MNLI、SST-2、CoLA、QNLI、MRPCを含む
自然言語生成(NLG):
- 数学タスク: MetaMathQAデータセット(395kサブセット)、GSM8KおよびMATHで評価
- コードタスク: CodeFeedbackデータセット(100kサブセット)、HumanEvalおよびMbppで評価