2025-11-20T05:49:14.768535

MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure

Kang, Yin

Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.

academic

Grundinformationen

Paper-ID: 2409.15371
Titel: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
Autoren: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv preprint)
Paper-Link: https://arxiv.org/abs/2409.15371v11

Zusammenfassung

Low-Rank Adaptation (LoRA) ist eine weit verbreitete parametereffiziente Feinabstimmungstechnik, aber ihre langsame Konvergenz hat zur Entwicklung zahlreicher Varianten geführt. Bestehende Methoden können jedoch häufig nicht gleichzeitig Leistung, Speicherverbrauch und Recheneffizienz verbessern. Um diese Herausforderung zu bewältigen, überprüft diese Arbeit die grundlegenden Ursachen der langsamen LoRA-Konvergenz. Basierend auf diesen Erkenntnissen schlagen die Autoren die Matrix Shard Sharing (MiSS)-Methode vor, die eine einzelne gemeinsame trainierbare Matrix $\boldsymbol{D}$ (initialisiert auf Null) verwendet, um Shards der ursprünglichen Gewichtsmatrix zu aktualisieren. Um gleichzeitig Recheneffizienz, niedrigen Speicherverbrauch und skalierbare Dienste zu gewährleisten, führen die Autoren MiSS $^e$ ein. Theoretische Analysen und experimentelle Ergebnisse zeigen, dass die Methode die Optimierungskomplexität ohne Leistungseinbußen reduziert und somit einen günstigeren Kompromiss zwischen Leistung, Speicher und Effizienz erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Die vollständige Parameteroptimierung großer Sprachmodelle (LLMs) ist rechnerisch untersagt, daher entstanden parametereffiziente Feinabstimmungstechniken (PEFT). LoRA als eine der prominentesten PEFT-Methoden approximiert Gewichtsaktualisierungen durch Niedrigrang-Zerlegung: $\Delta W \approx BA$ , wobei $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ und $r \ll \min(d,k)$ .

Einschränkungen bestehender Methoden

Langsame Konvergenz: LoRA konvergiert deutlich langsamer als vollständige Parameteroptimierung
Optimierungskomplexität: Erfordert gleichzeitige Aktualisierung der Matrizen A und B, was die Optimierungskomplexität erhöht
Schwierige Kompromisse: Bestehende LoRA-Varianten können schwer ein Gleichgewicht zwischen Leistung, Speicher und Effizienz erreichen

Forschungsmotivation

Durch die Analyse von S2FT und LoRA+ entdecken die Autoren, dass die Schlüsselursache für die langsame LoRA-Konvergenz die gleichzeitige Optimierung zweier Matrizen ist. Basierend auf der Annahme, dass "das Training einer einzelnen Matrix die Optimierung vereinfachen kann, ohne die Ausdrucksfähigkeit zu opfern", schlagen die Autoren die MiSS-Methode vor.

Kernbeiträge

Vorschlag der MiSS-Methode: Eine effiziente und adaptive Struktur mit Shard-Sharing-Mechanismus, die einen effektiven Kompromiss zwischen Leistung, Speichereffizienz und Recheneffizienz erreicht
Theoretische und experimentelle Validierung: Umfangreiche Experimente validieren die Überlegenheit von MiSS über diverse Datensätze und Modellarchitekturen
Umfassender Vergleich von PEFT-Methoden: Bietet eine integrierte Bewertung mehrerer PEFT-Methoden hinsichtlich Speichernutzung, Initialisierungsaufwand und Recheneffizienz
Pareto-Front-Analyse: Durch Kartierung der Pareto-Front dieser Dimensionen wird nachgewiesen, dass MiSS eine günstige Position einnimmt

Methodische Details

Aufgabendefinition

Gegeben eine vortrainierte Gewichtsmatrix $W_0 \in \mathbb{R}^{d \times k}$ , besteht das Ziel darin, eine parametereffiziente Aktualisierung $\Delta W$ zu erlernen, sodass das feinabgestimmte Modell bei nachgelagerten Aufgaben gut funktioniert, während die Anzahl der trainierbaren Parameter und der Rechenaufwand minimiert werden.

Modellarchitektur

MiSS-Grundform

MiSS definiert die Gewichtsaktualisierung als eine große Matrix, die durch eine Erweiterungsoperation aus einer kleinen trainierbaren Matrix $D$ generiert wird:

$W = W_0 + \Delta W = W_0 + \text{expand}(D)$ $y = W_0x + \text{expand}(D)x$

wobei $D \in \mathbb{R}^{r_1 \times r_2}$ und $(r_1, r_2) \ll \min(d,k)$ .

Erweiterungsmechanismus

Die Ausgabedimension $d$ wird in $N$ Shards mit Größen $\{s_1, s_2, \ldots, s_N\}$ aufgeteilt, wobei $\sum_{i=1}^N s_i = d$ . Für jeden Shard $i$ wird seine Aktualisierung durch die $i$ -te Zeile $D_i$ von $D$ bestimmt, die $s_i$ -mal wiederholt wird:

$(\text{expand}(D))^T = [(1_{s_1}D_1)^T \quad (1_{s_2}D_2)^T \quad \ldots \quad (1_{s_N}D_N)^T]$

MiSS $^e$ effiziente Implementierung

Um die explizite Bildung großer Matrizen zu vermeiden, definiert MiSS $^e$ $D \in \mathbb{R}^{r \times d}$ neu und teilt die Eingabedimension $k$ in $r$ Blöcke auf:

$x = [x^{(1)}, x^{(2)}, \ldots, x^{(r)}], \quad x^{(i)} \in \mathbb{R}^{b \times l \times g}$

$S = \left[\sum_{j=1}^g x^{(1)}_{[:,:,j]}, \sum_{j=1}^g x^{(2)}_{[:,:,j]}, \ldots, \sum_{j=1}^g x^{(r)}_{[:,:,j]}\right] \in \mathbb{R}^{b \times l \times r}$

$\Delta Wx = D^T S, \quad y = W_0x + D^T S$

Technische Innovationen

Einzelmatrix-Optimierung: Im Gegensatz zu LoRA, das zwei Matrizen A und B gleichzeitig optimieren muss, optimiert MiSS nur eine einzelne Matrix D, was die Optimierungskomplexität reduziert
Shard-Sharing-Mechanismus: Realisiert Niedrigrang-Eigenschaften durch wiederholte Matrixstruktur, während die Ausdrucksfähigkeit erhalten bleibt
Effiziente Implementierung: MiSS $^e$ vermeidet explizite Speicherung großer Matrizen durch Block-Level-Eingabe-Aggregation und reduziert die Speichernutzung erheblich

Experimentelle Einrichtung

Datensätze

Natürliches Sprachverständnis (NLU): GLUE-Benchmark-Teilmengen, einschließlich MNLI, SST-2, CoLA, QNLI, MRPC
Natürliche Sprachgenerierung (NLG):
- Mathematische Aufgaben: MetaMathQA-Datensatz (395k Teilmenge), Bewertung auf GSM8K und MATH
- Code-Aufgaben: CodeFeedback-Datensatz (100k Teilmenge), Bewertung auf HumanEval und Mbpp

Bewertungsmetriken

NLU-Aufgaben: Genauigkeit
Mathematische Aufgaben: Genauigkeit auf GSM8K- und MATH-Benchmarks
Code-Aufgaben: Erfolgsquote auf HumanEval und Mbpp
Effizienzmetriken: Trainingszeit, Speichernutzung, Initialisierungszeit

Vergleichsmethoden

LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS und weitere PEFT-Methoden

Implementierungsdetails

Optimierer: AdamW
Lernrate: 2e-5
Batch-Größe: 64-128
Lernratenplan: Kosinus-Decay
MiSS-Rang-Einstellung: 16-128 (je nach Aufgabe angepasst)

Experimentelle Ergebnisse

Hauptergebnisse

NLU-Aufgabenleistung

In GLUE-Benchmark-Tests auf RoBERTa-base zeigt MiSS besonders hervorragende Leistung auf dem CoLA-Datensatz mit einem Wert von 72,86, was LoRA (62,40) und PiSSA (67,28) deutlich übertrifft.

NLG-Aufgabenleistung

Experimentelle Ergebnisse auf mehreren großen Sprachmodellen zeigen:

LLaMA2-7B:

GSM8K: MiSS(48,16) > PiSSA(43,89) > DoRA(42,93) > LoRA(40,75)
Math: MiSS(8,58) > PiSSA(6,92) > DoRA(6,51) > LoRA(5,22)
HumanEval: MiSS(23,63) > PiSSA(22,15) > DoRA(21,95) > LoRA(17,74)

Qwen3-4B:

Math: MiSS(34,82) weit überlegen gegenüber anderen Methoden, PiSSA(26,00), DoRA(21,73), LoRA(15,20)

Gradient-Norm-Analyse

Die Analyse der initialen Gradient-Norm validiert das Designkonzept von MiSS. Experimente zeigen, dass MiSS wie andere verbesserte LoRA-Varianten größere initiale Gradient-Normen als Standard-LoRA aufweist, was mit schnellerer früher Konvergenz korreliert.

Effizienzanalyse

Komplexitätsvergleich

Methode	Raumkomplexität	Zeitkomplexität
Full	O(dk)	O(bld(d+k))
LoRA	O(dr+rk)	O(blr(d+k))
MiSS	O(dr)	O(bldk)
MiSS $^e$	O(dr)	O(blr(d+k/r))

Pareto-Front-Analyse

Die umfassende Bewertung auf LLaMA-3.2-3B zeigt, dass MiSS in der Leistungs-Effizienz-Abwägung die optimale Position einnimmt und die beste Testgenauigkeit (0,5080) bei gleichzeitig niedrigem Speicherverbrauch und Trainingszeit erreicht.

Ablationsstudien

Rang-Parameter-Einfluss

Tests verschiedener Rang-Werte auf LLaMA2-7B:

rank=16: GSM8K(45,90), Math(3,77), Parameter 21,7M
rank=32: GSM8K(46,18), Math(7,43), Parameter 43,5M
rank=64: GSM8K(48,16), Math(8,58), Parameter 87,0M
rank=128: GSM8K(53,49), Math(10,08), Parameter 174,0M

Die Ergebnisse zeigen monotone Leistungssteigerung mit Rang, wobei rank=64 einen guten Leistungs-Parameter-Kompromiss bietet.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Einzelmatrix-Optimierung: Beweist, dass Einzelmatrix-Optimierung im Vergleich zu Doppelmatrix-Optimierung die Optimierungskomplexität reduzieren und die Konvergenz beschleunigen kann
Effektive Kompromisse: MiSS erreicht bessere Ausgewogenheit zwischen Leistung, Speicher und Recheneffizienz
Breite Anwendbarkeit: Zeigt konsistente Überlegenheit über verschiedene Modellarchitekturen und Aufgabentypen

Einschränkungen

Tiefe der theoretischen Analyse: Obwohl Komplexitätsanalysen bereitgestellt werden, ist die theoretische Erklärung dafür, warum Einzelmatrix-Optimierung effektiver ist, nicht ausreichend tiefgreifend
Hyperparameter-Empfindlichkeit: Für verschiedene Aufgaben und Modelle kann die optimale Wahl des Rang-Parameters zusätzliche Abstimmung erfordern
Universalität des Erweiterungsmechanismus: Die aktuelle Shard-Erweiterungsstrategie ist möglicherweise nicht optimal und hat Verbesserungspotenzial

Zukünftige Richtungen

Theoretische Grundlagen: Tiefergehende Untersuchung der theoretischen Grundlagen der Einzelmatrix-Optimierung
Adaptive Rang-Auswahl: Entwicklung von Methoden zur automatischen Auswahl des optimalen Rangs
Multimodale Erweiterung: Erweiterung von MiSS auf multimodale Aufgaben

Tiefgreifende Bewertung

Stärken

Starke Innovation: Der vorgeschlagene Shard-Sharing-Mechanismus ist ein neuartiger und effektiver Ansatz
Umfangreiche Experimente: Umfasst mehrere Modelle, Datensätze und Bewertungsdimensionen mit angemessenem Experimentdesign
Hoher praktischer Wert: Verbessert die Effizienz erheblich bei Beibehaltung der Leistung mit starkem praktischem Nutzen
Umfassende Analyse: Tiefgreifende Analyse aus mehreren Perspektiven wie Gradient-Norm, Komplexität und Pareto-Front

Mängel

Theoretische Erklärung: Die theoretische Erklärung dafür, warum MiSS die Ausdrucksfähigkeit unter Einzelmatrix-Optimierung bewahren kann, ist nicht ausreichend tiefgreifend
Benchmark-Vergleich: Fehlen von Vergleichen mit einigen neuesten PEFT-Methoden
Langsequenz-Leistung: Unzureichende Tests der Leistung bei Langsequenz-Aufgaben

Auswirkungen

Akademischer Beitrag: Bietet neue Designideen für das PEFT-Feld und könnte weitere verwandte Forschung inspirieren
Praktischer Wert: Methode ist einfach und effektiv, leicht zu implementieren und bereitzustellen
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code

Anwendungsszenarien

Ressourcenbegrenzte Umgebungen: Besonders geeignet für Szenarien mit begrenztem GPU-Speicher
Großflächige Bereitstellung: Aufgrund seiner Effizienz geeignet für Anwendungen, die großflächige Bereitstellung erfordern
Multi-Task-Learning: Kann als effizienter Adapter im Multi-Task-Learning dienen

Literaturverzeichnis

Das Papier zitiert wichtige PEFT-Methoden wie LoRA, PiSSA, DoRA sowie Standard-Bewertungs-Benchmarks wie GSM8K und MATH und bietet damit umfassenden Hintergrund und Vergleichsgrundlagen für verwandte Forschung.

Gesamtbewertung: Dies ist ein hochqualitatives PEFT-Methodenpapier. Die vorgeschlagene MiSS-Methode weist theoretische Innovationen auf, umfangreiche experimentelle Validierung und hohen praktischen Wert. Der Hauptbeitrag der Arbeit liegt darin, durch Einzelmatrix-Optimierung einen besseren Kompromiss zwischen Leistung und Effizienz zu erreichen und damit neue Forschungsrichtungen für das PEFT-Feld zu eröffnen.

MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure

MiSS: Überprüfung des Kompromisses in LoRA mit einer effizienten Shard-Sharing-Struktur