SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information
Zhou, Wang, Xu
In the training of large language models, parameter-efficient techniques such as LoRA optimize memory usage and reduce communication overhead and memory usage during the fine-tuning phase. However, applying such techniques directly during the pre-training phase results in poor performance, primarily because the premature implementation of low-rank training significantly reduces model accuracy. Existing methods like ReLoRA and GaLore have attempted to address this challenge by updating the low-rank subspace. However, they still fall short of achieving the accuracy of full-rank training. Specifically, ReLoRA restricts the frequency of updates to preserve optimizer states consistency, hindering its ability to closely approximate full-rank training behavior. Meanwhile, GaLore relies on Singular Value Decomposition (SVD) to approximate the full-rank space, which introduces accuracy loss during the approximation process. In this paper, we introduce SwitchLoRA, a parameter-efficient training technique that frequently and smoothly replaces the trainable parameters of LoRA adapters with alternative parameters. SwitchLoRA updates the low-rank subspace incrementally, targeting only a few dimensions at a time to minimize the impact on optimizer states. This allows a higher update frequency, thereby enhancing accuracy by enabling the updated parameters to more closely mimic full-rank behavior during the pre-training phase. Our results demonstrate that SwitchLoRA actually surpasses full-rank training, reducing perplexity from 15.23 to 15.01 on the LLaMA 1.3B model, while also cutting communication overhead by 54\% and memory usage by 13\%. Furthermore, after full fine-tuning the SwitchLoRA pre-trained model and the full-rank pre-trained model on the GLUE benchmark, the SwitchLoRA pre-trained model showed an average accuracy gain of about 1\% over the full-rank pre-trained model.
academic
SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information
Dieses Papier schlägt die SwitchLoRA-Methode vor, um die Herausforderungen des parametereffizientem Trainings während der Vortrainingsphase großer Sprachmodelle zu bewältigen. Während traditionelle Low-Rank-Adaptationstechniken wie LoRA in der Feinabstimmungsphase hervorragende Ergebnisse liefern, führt ihre direkte Anwendung auf das Vortraining zu erheblichen Leistungseinbußen. Obwohl bestehende Methoden wie ReLoRA und GaLore versuchen, dieses Problem durch Aktualisierung von Low-Rank-Unterräumen zu lösen, können sie die Genauigkeit des vollrangigen Trainings nicht erreichen. SwitchLoRA ersetzt häufig und sanft die trainierbaren Parameter der LoRA-Adapter und aktualisiert inkrementell den Low-Rank-Unterraum, wobei jedes Mal nur wenige Dimensionen betroffen sind, um die Auswirkungen auf die Optimiererzustände zu minimieren. Experimentelle Ergebnisse zeigen, dass SwitchLoRA die Verwirrung beim LLaMA 1.3B-Modell von 15,23 auf 15,01 reduziert, das vollrangige Training übertrifft und gleichzeitig 54% der Kommunikationskosten und 13% des Speicherverbrauchs einspart.
Mit dem Aufstieg der Transformer-Architektur ist die Größe großer Sprachmodelle stark gewachsen, und das verteilte Training von Billionen-Parameter-Modellen steht vor enormen Kommunikationskosten zwischen Knoten. Obwohl parametereffiziente Techniken wie LoRA in der Feinabstimmungsphase hervorragende Ergebnisse zeigen, führt ihre direkte Anwendung in der Vortrainingsphase zu erheblichen Leistungseinbußen.
ReLoRA: Um die Konsistenz des Optimiererzustands zu bewahren, wird die Aktualisierungsfrequenz begrenzt, was eine vollständige Annäherung an das vollrangige Trainingsverhalten verhindert
GaLore: Verlässt sich auf SVD-Approximation des vollrangigen Raums und führt während des Approximationsprozesses zu Genauigkeitsverlusten
Neuronale Netze zeigen in frühen Trainingsphasen vollrangige Merkmale, und der interne Rang nimmt mit fortschreitendem Training allmählich ab. Daher ist eine Methode erforderlich, die während der Vortrainingsphase eine große Anzahl von Parametern trainiert und gleichzeitig selektiv einige Parameter aktualisiert, um Speichernutzung und Kommunikationskosten zu reduzieren.
Vorschlag der SwitchLoRA-Methode: Durch häufige sanfte Anpassung der trainierbaren Parameter der LoRA-Matrizen wird die Genauigkeit des vollrangigen Trainings beibehalten, während Speichernutzung und Kommunikationskosten reduziert werden
Optimiererzustand-Verwaltungsstrategie: Entwurf eines Mechanismus zum Zurücksetzen und temporären Einfrieren von Optimiererzuständen bei Parameterwechsel, um die Auswirkungen von Zustandsinkonsistenzen zu reduzieren
Verbesserte Initialisierungsregeln: Neue Initialisierungsstrategien für LoRA-Adapter-Parameter und ihre Kandidatenvektoren zur Verbesserung der Trainingseffizienz
Umfassende experimentelle Validierung: Validierung der Methodeneffektivität auf LLaMA-Modellen verschiedener Größen und Überprüfung der Inferenzfähigkeiten durch GLUE-Benchmarks
Gegeben eine Gewichtsmatrix W∈Rm×n eines vortrainierten Modells konvertiert traditionelles LoRA diese zu W+rαBA, wobei B∈Rm×r, A∈Rr×n, r≪min(m,n). SwitchLoRA ersetzt dynamisch Vektoren in B und A, um den effektiven Rang zu erhöhen.
Verwendung einer exponentiellen Abklingfunktion: frequency=Ce−θ⋅step, die die natürliche Entwicklung des Modells von vollrangig zu niedrigrangig widerspiegelt.
Basierend auf Xavier- und Kaiming-Initialisierungsideen wird eine neue Standardabweichung entworfen:
std[B]=std[b]=(mnr)41gain21std[A]=std[a]=(nnmr)41gain21
Beim 250M-Modell zeigt SwitchLoRA bessere Leistung als ReLoRA, selbst wenn ReLoRA 5000 Schritte vollrangiges Vortraining verwendet, während SwitchLoRA nur 200 Schritte benötigt. Unter gleichen 1000-Schritt-Bedingungen für vollrangiges Vortraining ist SwitchLoRA deutlich überlegen.
Bei niedrigeren Rangeinstellungen ist der Vorteil von SwitchLoRA noch ausgeprägter, was die Bedeutung der Abdeckung aller Aktualisierungsrichtungen demonstriert.
Experimente zeigen, dass sowohl die Anfangsfrequenz als auch die Abklingrate auf moderate Werte eingestellt werden müssen; zu hohe oder zu niedrige Werte reduzieren die Leistung.
Rangverteilungsanalyse: Die Singulärwertverteilung von SwitchLoRA liegt näher am vollrangigen Training, während Standard-LoRA eine pathologische Verteilung zeigt
Skalierungseffekt: Mit zunehmender Modellgröße wird der Vorteil von SwitchLoRA gegenüber Standard-LoRA deutlicher
Generalisierungsfähigkeit: Von SwitchLoRA vortrainierte Modelle zeigen stärkere Inferenz- und Generalisierungsfähigkeiten bei nachgelagerten Aufgaben
Frühere Arbeiten realisieren Low-Rank-Approximationen von Gewichtsmatrizen durch SVD und ähnliche Methoden, hauptsächlich angewendet auf CNNs und kleine Sprachmodelle.
Einschließlich Quantisierung, Pruning, Gradientenkompression und ähnlicher Techniken, wobei GaLore durch Gradientenprojektion speichereffizientes Training realisiert.
Theoretische Innovation: Schlägt einen neuen Ansatz zur inkrementellen Aktualisierung von Low-Rank-Unterräumen vor und löst effektiv das Problem des Low-Rank-Trainings in der Vortrainingsphase
Technische Umsetzung: Berücksichtigt sorgfältig praktische Probleme wie Optimiererzustand-Verwaltung und Speicheroptimierung mit starker Praktikabilität
Umfassende Experimente: Validierung der Methodeneffektivität aus mehreren Perspektiven, einschließlich Vortrainingsleistung, Ressourcenverbrauch und Inferenzfähigkeiten
Theoretische Analyse: Bietet theoretische Erklärungen für Vektoraktualisierungsunabhängigkeit und Rationalität des Optimiererzustand-Zurücksetzen
Erhöhte Komplexität: Erhöht die Implementierungskomplexität im Vergleich zu Standard-LoRA und erfordert zusätzliche Kandidatenvektorverwaltung
Hyperparameter-Abstimmung: Mehrere Hyperparameter (Wechselfrequenz, Abklingrate, Einfrierungsschritte) erfordern sorgfältige Abstimmung
Skalierungsvalidierung: Obwohl verschiedene Modellgrößen getestet wurden, ist die maximale Größe nur 7B, und die Anwendbarkeit auf größere Modelle muss noch überprüft werden
Theoretische Vollständigkeit: Obwohl einige theoretische Analysen bereitgestellt werden, fehlt eine tiefgreifende theoretische Erklärung dafür, warum das Verfahren das vollrangige Training übertreffen kann
Akademischer Wert: Bietet neue Lösungsansätze für parametereffizientes Training in der Vortrainingsphase und könnte weitere verwandte Forschung inspirieren
Praktischer Wert: Signifikante Ressourceneinsparung bei Beibehaltung der Leistung ist von großer Bedeutung für praktisches großes Modelltraining
Reproduzierbarkeit: Das Papier bietet detaillierte Implementierungsdetails und Hyperparameter-Einstellungen für einfache Reproduktion und Anwendung
Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
Hu et al. 2022: Originales LoRA-Papier
Lialin et al. 2023: ReLoRA-Methode
Zhao et al. 2024: GaLore-Methode
Vaswani et al. 2017: Transformer-Architektur
Rajbhandari et al. 2020: ZeRO-Optimierer
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier mit hervorragenden Leistungen in theoretischer Innovation, experimenteller Validierung und praktischem Wert. Die SwitchLoRA-Methode löst elegant das Problem des Low-Rank-Trainings in der Vortrainingsphase, behält nicht nur die Trainingseffektivität bei, sondern erreicht auch erhebliche Ressourceneinsparungen. Obwohl es einige Einschränkungen gibt, sind die Beiträge ausreichend, um die Entwicklung dieses Forschungsbereichs voranzutreiben.