ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning
Zhang, Yang, Cai et al.
As large language models (LLMs) continue to scale in size, the computational overhead has become a major bottleneck for task-specific fine-tuning. While low-rank adaptation (LoRA) effectively curtails this cost by confining the weight updates to a low-dimensional subspace, such a restriction can hinder effectiveness and slow convergence. This contribution deals with these limitations by accumulating progressively a high-rank weight update from consecutive low-rank increments. Specifically, the per update optimal low-rank matrix is identified to minimize the loss function and closely approximate full fine-tuning. To endow efficient and seamless optimization without restarting, this optimal choice is formed by appropriately scaling the columns of the original low-rank matrix. Rigorous performance guarantees reveal that the optimal scaling can be found analytically. Extensive numerical tests with popular LLMs scaling up to 12 billion parameters demonstrate a consistent performance gain and fast convergence relative to state-of-the-art LoRA variants on diverse tasks including natural language understanding, commonsense reasoning, and mathematical problem solving.
academic
ScaLoRA : Adaptation de Faible Rang Optimalement Mise à l'Échelle pour l'Ajustement Efficace de Haut Rang
Avec l'expansion continue de la taille des grands modèles de langage (LLMs), la charge computationnelle est devenue le principal goulot d'étranglement de l'ajustement fin spécifique aux tâches. Bien que l'adaptation de faible rang (LoRA) réduise efficacement les coûts en restreignant les mises à jour de poids à un sous-espace de faible dimension, cette restriction entrave les performances et ralentit la convergence. Cette recherche résout ces limitations en accumulant progressivement des incréments de faible rang successifs pour former des mises à jour de poids de haut rang. Plus précisément, elle identifie la matrice de faible rang optimale à chaque mise à jour pour minimiser la fonction de perte et approximer étroitement l'ajustement fin complet. Pour réaliser une optimisation efficace et transparente sans redémarrage, ce choix optimal est formé en mettant à l'échelle appropriément les colonnes de la matrice de faible rang originale. Des garanties de performance rigoureuses montrent que la mise à l'échelle optimale peut être trouvée par des méthodes analytiques. Des tests numériques extensifs sur des LLMs populaires comptant jusqu'à 12 milliards de paramètres démontrent que la méthode réalise des améliorations de performance cohérentes et une convergence rapide par rapport aux variantes LoRA de pointe sur des tâches diversifiées incluant la compréhension du langage naturel, le raisonnement de bon sens et la résolution de problèmes mathématiques.
Avec la croissance rapide de la taille des grands modèles de langage, les méthodes traditionnelles d'ajustement fin complet deviennent de plus en plus impraticables en raison de leur charge computationnelle énorme. Par exemple, même la plus petite variante de Llama 4 Scout contient 109 milliards de paramètres, et l'ajustement fin complet nécessite plus d'1 To de mémoire GPU même en précision demi-précision, ainsi qu'une quantité considérable de temps.
Limitations de LoRA : Bien que LoRA réduise efficacement les coûts computationnels en paramétrisant les mises à jour de poids comme le produit externe de deux matrices hautes et minces, le sous-espace de faible dimension fixe entraîne une dégradation des performances et une convergence lente.
Défis des mises à jour de haut rang : Les méthodes existantes de mise à jour de haut rang telles que ReLoRA nécessitent un redémarrage de l'optimisation, MoRA nécessite des mappages non-linéaires soigneusement conçus, et les opérations de produit de Hadamard de HiRA ont une complexité élevée.
Cet article vise à surmonter les limitations de LoRA en identifiant dynamiquement les adaptateurs de faible rang optimaux, en empilant des incréments de faible rang progressifs pour former des mises à jour de poids de haut rang, tout en maintenant l'efficacité computationnelle.
Analyse Théorique : Prouve les conditions nécessaires et suffisantes pour les adaptateurs de faible rang optimaux, établit les conditions nécessitant une SVD tronquée, mais souligne que sa charge computationnelle est excessive.
Méthode ScaLoRA : Propose une méthode de restriction des nouveaux adaptateurs par transformation de mise à l'échelle des colonnes, identifiant de manière prouvable les adaptateurs globalement optimaux et les estimateurs de matrices traitables sous forme analytique.
Vérification Expérimentale : Effectue des tests complets sur des modèles tels que DeBERTaV3-base, LLaMA-2-7B, LLaMA-3-8B et Gemma-3-12B-pt, validant l'analyse théorique et confirmant les performances supérieures et la convergence accélérée de ScaLoRA.
Considérant une matrice de poids générale W∈Rm×n d'un grand modèle, LoRA la décompose comme W=Wpt+Wft, où Wpt est le poids préentraîné gelé, Wft:=ABT est la mise à jour d'ajustement fin apprenable, avec A∈Rm×r, B∈Rn×r, et r≪m,n.
Contrairement à LoRA qui se fixe à AtBtT, l'idée clé de ScaLoRA est d'identifier dynamiquement l'adaptateur de faible rang « optimal » à chaque itération, maximisant la réduction de perte :
Wt=Wpt+AtBtT=fusionneˊ et geleˊ(Wpt+AtBtT−A~tB~tT)+apprenableA~tB~tT
Théorème 1 (Conditions d'Optimalité) : Considérant la SVD ∇ℓ(Wt)=UtΣtVtT, si rang(∇ℓ(Wt))≥2r,∀t et l'hypothèse de lissage Lipschitz est satisfaite, alors (A~t∗,B~t∗) minimise la borne supérieure de perte si et seulement si :