Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.
- Paper-ID: 2409.15371
- Titel: MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
- Autoren: Jiale Kang (Yuanshi Inc), Qingyu Yin (Zhejiang University)
- Klassifizierung: cs.CL cs.AI
- Veröffentlichungsdatum: 14. Oktober 2025 (arXiv preprint)
- Paper-Link: https://arxiv.org/abs/2409.15371v11
Low-Rank Adaptation (LoRA) ist eine weit verbreitete parametereffiziente Feinabstimmungstechnik, aber ihre langsame Konvergenz hat zur Entwicklung zahlreicher Varianten geführt. Bestehende Methoden können jedoch häufig nicht gleichzeitig Leistung, Speicherverbrauch und Recheneffizienz verbessern. Um diese Herausforderung zu bewältigen, überprüft diese Arbeit die grundlegenden Ursachen der langsamen LoRA-Konvergenz. Basierend auf diesen Erkenntnissen schlagen die Autoren die Matrix Shard Sharing (MiSS)-Methode vor, die eine einzelne gemeinsame trainierbare Matrix D (initialisiert auf Null) verwendet, um Shards der ursprünglichen Gewichtsmatrix zu aktualisieren. Um gleichzeitig Recheneffizienz, niedrigen Speicherverbrauch und skalierbare Dienste zu gewährleisten, führen die Autoren MiSSe ein. Theoretische Analysen und experimentelle Ergebnisse zeigen, dass die Methode die Optimierungskomplexität ohne Leistungseinbußen reduziert und somit einen günstigeren Kompromiss zwischen Leistung, Speicher und Effizienz erreicht.
Die vollständige Parameteroptimierung großer Sprachmodelle (LLMs) ist rechnerisch untersagt, daher entstanden parametereffiziente Feinabstimmungstechniken (PEFT). LoRA als eine der prominentesten PEFT-Methoden approximiert Gewichtsaktualisierungen durch Niedrigrang-Zerlegung: ΔW≈BA, wobei B∈Rd×r, A∈Rr×k und r≪min(d,k).
- Langsame Konvergenz: LoRA konvergiert deutlich langsamer als vollständige Parameteroptimierung
- Optimierungskomplexität: Erfordert gleichzeitige Aktualisierung der Matrizen A und B, was die Optimierungskomplexität erhöht
- Schwierige Kompromisse: Bestehende LoRA-Varianten können schwer ein Gleichgewicht zwischen Leistung, Speicher und Effizienz erreichen
Durch die Analyse von S2FT und LoRA+ entdecken die Autoren, dass die Schlüsselursache für die langsame LoRA-Konvergenz die gleichzeitige Optimierung zweier Matrizen ist. Basierend auf der Annahme, dass "das Training einer einzelnen Matrix die Optimierung vereinfachen kann, ohne die Ausdrucksfähigkeit zu opfern", schlagen die Autoren die MiSS-Methode vor.
- Vorschlag der MiSS-Methode: Eine effiziente und adaptive Struktur mit Shard-Sharing-Mechanismus, die einen effektiven Kompromiss zwischen Leistung, Speichereffizienz und Recheneffizienz erreicht
- Theoretische und experimentelle Validierung: Umfangreiche Experimente validieren die Überlegenheit von MiSS über diverse Datensätze und Modellarchitekturen
- Umfassender Vergleich von PEFT-Methoden: Bietet eine integrierte Bewertung mehrerer PEFT-Methoden hinsichtlich Speichernutzung, Initialisierungsaufwand und Recheneffizienz
- Pareto-Front-Analyse: Durch Kartierung der Pareto-Front dieser Dimensionen wird nachgewiesen, dass MiSS eine günstige Position einnimmt
Gegeben eine vortrainierte Gewichtsmatrix W0∈Rd×k, besteht das Ziel darin, eine parametereffiziente Aktualisierung ΔW zu erlernen, sodass das feinabgestimmte Modell bei nachgelagerten Aufgaben gut funktioniert, während die Anzahl der trainierbaren Parameter und der Rechenaufwand minimiert werden.
MiSS definiert die Gewichtsaktualisierung als eine große Matrix, die durch eine Erweiterungsoperation aus einer kleinen trainierbaren Matrix D generiert wird:
W=W0+ΔW=W0+expand(D)y=W0x+expand(D)x
wobei D∈Rr1×r2 und (r1,r2)≪min(d,k).
Die Ausgabedimension d wird in N Shards mit Größen {s1,s2,…,sN} aufgeteilt, wobei ∑i=1Nsi=d. Für jeden Shard i wird seine Aktualisierung durch die i-te Zeile Di von D bestimmt, die si-mal wiederholt wird:
(expand(D))T=[(1s1D1)T(1s2D2)T…(1sNDN)T]
Um die explizite Bildung großer Matrizen zu vermeiden, definiert MiSSe D∈Rr×d neu und teilt die Eingabedimension k in r Blöcke auf:
x=[x(1),x(2),…,x(r)],x(i)∈Rb×l×g
S=[∑j=1gx[:,:,j](1),∑j=1gx[:,:,j](2),…,∑j=1gx[:,:,j](r)]∈Rb×l×r
ΔWx=DTS,y=W0x+DTS
- Einzelmatrix-Optimierung: Im Gegensatz zu LoRA, das zwei Matrizen A und B gleichzeitig optimieren muss, optimiert MiSS nur eine einzelne Matrix D, was die Optimierungskomplexität reduziert
- Shard-Sharing-Mechanismus: Realisiert Niedrigrang-Eigenschaften durch wiederholte Matrixstruktur, während die Ausdrucksfähigkeit erhalten bleibt
- Effiziente Implementierung: MiSSe vermeidet explizite Speicherung großer Matrizen durch Block-Level-Eingabe-Aggregation und reduziert die Speichernutzung erheblich
- Natürliches Sprachverständnis (NLU): GLUE-Benchmark-Teilmengen, einschließlich MNLI, SST-2, CoLA, QNLI, MRPC
- Natürliche Sprachgenerierung (NLG):
- Mathematische Aufgaben: MetaMathQA-Datensatz (395k Teilmenge), Bewertung auf GSM8K und MATH
- Code-Aufgaben: CodeFeedback-Datensatz (100k Teilmenge), Bewertung auf HumanEval und Mbpp
- NLU-Aufgaben: Genauigkeit
- Mathematische Aufgaben: Genauigkeit auf GSM8K- und MATH-Benchmarks
- Code-Aufgaben: Erfolgsquote auf HumanEval und Mbpp
- Effizienzmetriken: Trainingszeit, Speichernutzung, Initialisierungszeit
LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS und weitere PEFT-Methoden
- Optimierer: AdamW
- Lernrate: 2e-5
- Batch-Größe: 64-128
- Lernratenplan: Kosinus-Decay
- MiSS-Rang-Einstellung: 16-128 (je nach Aufgabe angepasst)
In GLUE-Benchmark-Tests auf RoBERTa-base zeigt MiSS besonders hervorragende Leistung auf dem CoLA-Datensatz mit einem Wert von 72,86, was LoRA (62,40) und PiSSA (67,28) deutlich übertrifft.
Experimentelle Ergebnisse auf mehreren großen Sprachmodellen zeigen:
LLaMA2-7B:
- GSM8K: MiSS(48,16) > PiSSA(43,89) > DoRA(42,93) > LoRA(40,75)
- Math: MiSS(8,58) > PiSSA(6,92) > DoRA(6,51) > LoRA(5,22)
- HumanEval: MiSS(23,63) > PiSSA(22,15) > DoRA(21,95) > LoRA(17,74)
Qwen3-4B:
- Math: MiSS(34,82) weit überlegen gegenüber anderen Methoden, PiSSA(26,00), DoRA(21,73), LoRA(15,20)
Die Analyse der initialen Gradient-Norm validiert das Designkonzept von MiSS. Experimente zeigen, dass MiSS wie andere verbesserte LoRA-Varianten größere initiale Gradient-Normen als Standard-LoRA aufweist, was mit schnellerer früher Konvergenz korreliert.
| Methode | Raumkomplexität | Zeitkomplexität |
|---|
| Full | O(dk) | O(bld(d+k)) |
| LoRA | O(dr+rk) | O(blr(d+k)) |
| MiSS | O(dr) | O(bldk) |
| MiSSe | O(dr) | O(blr(d+k/r)) |
Die umfassende Bewertung auf LLaMA-3.2-3B zeigt, dass MiSS in der Leistungs-Effizienz-Abwägung die optimale Position einnimmt und die beste Testgenauigkeit (0,5080) bei gleichzeitig niedrigem Speicherverbrauch und Trainingszeit erreicht.
Tests verschiedener Rang-Werte auf LLaMA2-7B:
- rank=16: GSM8K(45,90), Math(3,77), Parameter 21,7M
- rank=32: GSM8K(46,18), Math(7,43), Parameter 43,5M
- rank=64: GSM8K(48,16), Math(8,58), Parameter 87,0M
- rank=128: GSM8K(53,49), Math(10,08), Parameter 174,0M
Die Ergebnisse zeigen monotone Leistungssteigerung mit Rang, wobei rank=64 einen guten Leistungs-Parameter-Kompromiss bietet.
- Adaptive Verbesserungen: PiSSA, LoRA-GA, LoRA+ usw., hauptsächlich durch Änderung von Initialisierungsstrategien zur Konvergenzbeschleunigung
- Effizienzoptimierung: VeRA, ProLoRA, MoS usw., konzentriert sich auf Reduzierung von Rechen- und Speicheraufwand
Im Vergleich zu bestehenden Methoden reduziert MiSS durch eine Einzelmatrix-Optimierungsstrategie die Recheneffizienz erheblich, während die Leistung erhalten bleibt, vermeidet teure Initialisierungsprozesse wie bei PiSSA und benötigt keine speziellen Optimierer-Anforderungen wie LoRA-GA.
- Einzelmatrix-Optimierung: Beweist, dass Einzelmatrix-Optimierung im Vergleich zu Doppelmatrix-Optimierung die Optimierungskomplexität reduzieren und die Konvergenz beschleunigen kann
- Effektive Kompromisse: MiSS erreicht bessere Ausgewogenheit zwischen Leistung, Speicher und Recheneffizienz
- Breite Anwendbarkeit: Zeigt konsistente Überlegenheit über verschiedene Modellarchitekturen und Aufgabentypen
- Tiefe der theoretischen Analyse: Obwohl Komplexitätsanalysen bereitgestellt werden, ist die theoretische Erklärung dafür, warum Einzelmatrix-Optimierung effektiver ist, nicht ausreichend tiefgreifend
- Hyperparameter-Empfindlichkeit: Für verschiedene Aufgaben und Modelle kann die optimale Wahl des Rang-Parameters zusätzliche Abstimmung erfordern
- Universalität des Erweiterungsmechanismus: Die aktuelle Shard-Erweiterungsstrategie ist möglicherweise nicht optimal und hat Verbesserungspotenzial
- Theoretische Grundlagen: Tiefergehende Untersuchung der theoretischen Grundlagen der Einzelmatrix-Optimierung
- Adaptive Rang-Auswahl: Entwicklung von Methoden zur automatischen Auswahl des optimalen Rangs
- Multimodale Erweiterung: Erweiterung von MiSS auf multimodale Aufgaben
- Starke Innovation: Der vorgeschlagene Shard-Sharing-Mechanismus ist ein neuartiger und effektiver Ansatz
- Umfangreiche Experimente: Umfasst mehrere Modelle, Datensätze und Bewertungsdimensionen mit angemessenem Experimentdesign
- Hoher praktischer Wert: Verbessert die Effizienz erheblich bei Beibehaltung der Leistung mit starkem praktischem Nutzen
- Umfassende Analyse: Tiefgreifende Analyse aus mehreren Perspektiven wie Gradient-Norm, Komplexität und Pareto-Front
- Theoretische Erklärung: Die theoretische Erklärung dafür, warum MiSS die Ausdrucksfähigkeit unter Einzelmatrix-Optimierung bewahren kann, ist nicht ausreichend tiefgreifend
- Benchmark-Vergleich: Fehlen von Vergleichen mit einigen neuesten PEFT-Methoden
- Langsequenz-Leistung: Unzureichende Tests der Leistung bei Langsequenz-Aufgaben
- Akademischer Beitrag: Bietet neue Designideen für das PEFT-Feld und könnte weitere verwandte Forschung inspirieren
- Praktischer Wert: Methode ist einfach und effektiv, leicht zu implementieren und bereitzustellen
- Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails und Open-Source-Code
- Ressourcenbegrenzte Umgebungen: Besonders geeignet für Szenarien mit begrenztem GPU-Speicher
- Großflächige Bereitstellung: Aufgrund seiner Effizienz geeignet für Anwendungen, die großflächige Bereitstellung erfordern
- Multi-Task-Learning: Kann als effizienter Adapter im Multi-Task-Learning dienen
Das Papier zitiert wichtige PEFT-Methoden wie LoRA, PiSSA, DoRA sowie Standard-Bewertungs-Benchmarks wie GSM8K und MATH und bietet damit umfassenden Hintergrund und Vergleichsgrundlagen für verwandte Forschung.
Gesamtbewertung: Dies ist ein hochqualitatives PEFT-Methodenpapier. Die vorgeschlagene MiSS-Methode weist theoretische Innovationen auf, umfangreiche experimentelle Validierung und hohen praktischen Wert. Der Hauptbeitrag der Arbeit liegt darin, durch Einzelmatrix-Optimierung einen besseren Kompromiss zwischen Leistung und Effizienz zu erreichen und damit neue Forschungsrichtungen für das PEFT-Feld zu eröffnen.