Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.
- ID de l'article : 2409.15371
- Titre : MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
- Auteurs : Jiale Kang (Yuanshi Inc), Qingyu Yin (Université de Zhejiang)
- Classification : cs.CL cs.AI
- Date de publication : 14 octobre 2025 (préimpression arXiv)
- Lien de l'article : https://arxiv.org/abs/2409.15371v11
L'Adaptation de Faible Rang (LoRA) est une technique largement adoptée d'ajustement fin paramétrique efficace, mais sa convergence lente a motivé le développement de nombreuses variantes. Cependant, les méthodes existantes ne parviennent généralement pas à améliorer simultanément la performance, l'utilisation mémoire et l'efficacité computationnelle. Pour relever ce défi, cet article réexamine les causes fondamentales de la convergence lente de LoRA. Sur la base de ces intuitions, les auteurs proposent la méthode Matrix Shard Sharing (MiSS), qui utilise une seule matrice entraînable partagée D (initialisée à zéro) pour mettre à jour les fragments de la matrice de poids d'origine. Pour assurer simultanément l'efficacité computationnelle, une faible utilisation mémoire et une scalabilité de service, les auteurs introduisent MiSSe. L'analyse théorique et les résultats expérimentaux démontrent que cette méthode réduit la complexité d'optimisation sans compromettre la performance, réalisant ainsi un compromis plus favorable entre performance, mémoire et efficacité.
L'ajustement fin de tous les paramètres des modèles de langage volumineux (LLMs) est prohibitif sur le plan computationnel, d'où l'émergence des techniques d'ajustement fin paramétrique efficace (PEFT). LoRA, en tant que l'une des méthodes PEFT les plus éminentes, approxime les mises à jour de poids par décomposition de faible rang : ΔW≈BA, où B∈Rd×r, A∈Rr×k, et r≪min(d,k).
- Convergence lente : LoRA converge significativement plus lentement que l'ajustement fin complet
- Complexité d'optimisation : Nécessite la mise à jour simultanée des matrices A et B, augmentant la complexité d'optimisation
- Compromis difficile : Les variantes LoRA existantes peinent à équilibrer performance, mémoire et efficacité
En analysant les méthodes S2FT et LoRA+, les auteurs découvrent que la cause clé de la convergence lente de LoRA est la nécessité d'optimiser simultanément deux matrices. Sur la base de l'hypothèse que « l'entraînement d'une seule matrice peut simplifier l'optimisation sans sacrifier la capacité d'expression », les auteurs proposent la méthode MiSS.
- Proposition de la méthode MiSS : Une structure efficace et adaptative avec un mécanisme de partage de fragments, réalisant un équilibre efficace entre trois attributs clés : performance, efficacité mémoire et efficacité computationnelle
- Vérification théorique et expérimentale : Validation par expériences à grande échelle de la supériorité de MiSS sur des ensembles de données et architectures de modèles diversifiés
- Comparaison complète des méthodes PEFT : Évaluation synthétique de plusieurs méthodes PEFT en termes d'utilisation mémoire, surcharge d'initialisation et efficacité computationnelle
- Analyse de la frontière de Pareto : Démonstration que MiSS occupe une position favorable en cartographiant la frontière de Pareto de ces dimensions
Étant donné une matrice de poids pré-entraînée W0∈Rd×k, l'objectif est d'apprendre une mise à jour paramétrique efficace ΔW de sorte que le modèle ajusté fonctionne bien sur les tâches en aval, tout en minimisant le nombre de paramètres entraînables et les frais computationnels.
MiSS définit la mise à jour de poids comme une grande matrice générée à partir d'une petite matrice entraînable D via une opération d'expansion :
W=W0+ΔW=W0+expand(D)y=W0x+expand(D)x
où D∈Rr1×r2, (r1,r2)≪min(d,k).
La dimension de sortie d est divisée en N fragments de tailles {s1,s2,…,sN}, où ∑i=1Nsi=d. Pour chaque fragment i, sa mise à jour est déterminée par la répétition de la i-ème ligne Di de D un nombre si de fois :
(expand(D))T=[(1s1D1)T(1s2D2)T…(1sNDN)T]
Pour éviter la formation explicite d'une grande matrice, MiSSe redéfinit D∈Rr×d, divisant la dimension d'entrée k en r blocs :
x=[x(1),x(2),…,x(r)],x(i)∈Rb×l×g
S=[∑j=1gx[:,:,j](1),∑j=1gx[:,:,j](2),…,∑j=1gx[:,:,j](r)]∈Rb×l×r
ΔWx=DTS,y=W0x+DTS
- Optimisation de matrice unique : Contrairement à LoRA qui nécessite l'optimisation simultanée des matrices A et B, MiSS n'optimise qu'une seule matrice D, réduisant la complexité d'optimisation
- Mécanisme de partage de fragments : Réalise les propriétés de faible rang par structure matricielle répétée tout en maintenant la capacité d'expression
- Implémentation efficace : MiSSe évite le stockage explicite de grandes matrices par agrégation d'entrées au niveau des blocs, réduisant significativement l'utilisation mémoire
- Compréhension du Langage Naturel (NLU) : Sous-ensemble du benchmark GLUE, incluant MNLI, SST-2, CoLA, QNLI, MRPC
- Génération du Langage Naturel (NLG) :
- Tâches mathématiques : Ensemble de données MetaMathQA (sous-ensemble de 395k), évaluation sur GSM8K et MATH
- Tâches de codage : Ensemble de données CodeFeedback (sous-ensemble de 100k), évaluation sur HumanEval et Mbpp
- Tâches NLU : Précision
- Tâches mathématiques : Précision sur les benchmarks GSM8K et MATH
- Tâches de codage : Taux de réussite sur HumanEval et Mbpp
- Métriques d'efficacité : Temps d'entraînement, utilisation mémoire, temps d'initialisation
LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS et plusieurs autres méthodes PEFT
- Optimiseur : AdamW
- Taux d'apprentissage : 2e-5
- Taille de lot : 64-128
- Planification du taux d'apprentissage : Décroissance cosinus
- Paramètre de rang MiSS : 16-128 (ajusté selon la tâche)
Dans les tests de benchmark GLUE sur RoBERTa-base, MiSS se distingue particulièrement sur l'ensemble de données CoLA, atteignant un score de 72,86, surpassant significativement LoRA (62,40) et PiSSA (67,28).
Les résultats expérimentaux sur plusieurs modèles de langage volumineux montrent :
LLaMA2-7B :
- GSM8K : MiSS(48,16) > PiSSA(43,89) > DoRA(42,93) > LoRA(40,75)
- Math : MiSS(8,58) > PiSSA(6,92) > DoRA(6,51) > LoRA(5,22)
- HumanEval : MiSS(23,63) > PiSSA(22,15) > DoRA(21,95) > LoRA(17,74)
Qwen3-4B :
- Math : MiSS(34,82) dépasse largement les autres méthodes, PiSSA(26,00), DoRA(21,73), LoRA(15,20)
L'analyse de la norme du gradient initial valide la conception de MiSS. Les expériences démontrent que MiSS, comme les autres variantes LoRA améliorées, possède une norme de gradient initial plus grande que LoRA standard, ce qui est associé à une convergence plus rapide en phase initiale.
| Méthode | Complexité Spatiale | Complexité Temporelle |
|---|
| Full | O(dk) | O(bld(d+k)) |
| LoRA | O(dr+rk) | O(blr(d+k)) |
| MiSS | O(dr) | O(bldk) |
| MiSSe | O(dr) | O(blr(d+k/r)) |
L'évaluation synthétique sur LLaMA-3.2-3B montre que MiSS occupe la position optimale dans le compromis performance-efficacité, réalisant la meilleure précision de test (0,5080) tout en maintenant une utilisation mémoire et un temps d'entraînement faibles.
Test de l'impact de différentes valeurs de rang sur LLaMA2-7B :
- rang=16 : GSM8K(45,90), Math(3,77), paramètres 21,7M
- rang=32 : GSM8K(46,18), Math(7,43), paramètres 43,5M
- rang=64 : GSM8K(48,16), Math(8,58), paramètres 87,0M
- rang=128 : GSM8K(53,49), Math(10,08), paramètres 174,0M
Les résultats montrent que la performance augmente de manière monotone avec le rang, rang=64 offrant un bon équilibre performance-paramètres.
- Améliorations adaptatives : PiSSA, LoRA-GA, LoRA+, etc., principalement en modifiant les stratégies d'initialisation pour accélérer la convergence
- Optimisations d'efficacité : VeRA, ProLoRA, MoS, etc., se concentrant sur la réduction des frais computationnels et mémoire
Comparée aux méthodes existantes, MiSS améliore significativement l'efficacité tout en maintenant la performance grâce à une stratégie d'optimisation de matrice unique, évitant le processus d'initialisation coûteux des méthodes comme PiSSA, et ne nécessitant pas les exigences spéciales d'optimiseur des méthodes comme LoRA-GA.
- Optimisation de matrice unique : Démontre que l'optimisation de matrice unique comparée à l'optimisation de double matrice peut réduire la complexité d'optimisation et accélérer la convergence
- Compromis efficace : MiSS réalise un meilleur équilibre entre performance, mémoire et efficacité computationnelle
- Applicabilité générale : Démontre une supériorité cohérente sur diverses architectures de modèles et types de tâches
- Profondeur de l'analyse théorique : Bien que fournissant une analyse de complexité, l'explication théorique de pourquoi l'optimisation de matrice unique est plus efficace manque de profondeur
- Sensibilité aux hyperparamètres : Le choix optimal du paramètre de rang pour différentes tâches et modèles peut nécessiter un ajustement supplémentaire
- Généralité du mécanisme d'expansion : La stratégie actuelle d'expansion de fragments peut ne pas être optimale, avec espace d'amélioration
- Fondements théoriques : Approfondir la recherche sur les bases théoriques de l'optimisation de matrice unique
- Sélection adaptative de rang : Développer des méthodes pour sélectionner automatiquement le rang optimal
- Extension multimodale : Étendre MiSS aux tâches multimodales
- Innovation forte : Le mécanisme de partage de fragments proposé est une approche nouvelle et efficace
- Expériences complètes : Couvre plusieurs modèles, ensembles de données et dimensions d'évaluation, avec une conception expérimentale solide
- Valeur pratique élevée : Améliore significativement l'efficacité tout en maintenant la performance, avec une forte praticité
- Analyse complète : Analyse approfondie sous plusieurs angles incluant norme du gradient, complexité et frontière de Pareto
- Explication théorique : L'explication théorique de pourquoi MiSS maintient la capacité d'expression sous optimisation de matrice unique manque de profondeur
- Comparaison de référence : Manque de comparaison avec certaines méthodes PEFT les plus récentes
- Performance sur séquences longues : Test insuffisant sur les tâches de séquences longues
- Contribution académique : Fournit une nouvelle direction de conception au domaine PEFT, pouvant inspirer davantage de recherches connexes
- Valeur pratique : La méthode est simple, efficace, facile à implémenter et déployer
- Reproductibilité : Fournit des détails d'implémentation détaillés et du code open-source
- Environnements à ressources limitées : Particulièrement adapté aux scénarios avec mémoire GPU limitée
- Déploiement à grande échelle : En raison de son efficacité, adapté aux applications nécessitant un déploiement à grande échelle
- Apprentissage multitâche : Peut servir d'adaptateur efficace dans l'apprentissage multitâche
L'article cite les méthodes PEFT importantes comme LoRA, PiSSA, DoRA, ainsi que les benchmarks d'évaluation standard comme GSM8K et MATH, fournissant un contexte complet et une base de comparaison pour les recherches connexes.
Évaluation Générale : Ceci est un article PEFT de haute qualité proposant la méthode MiSS avec une certaine innovation théorique, une vérification expérimentale complète et une valeur pratique considérable. La contribution principale de l'article réside dans la réalisation d'un meilleur compromis performance-efficacité par optimisation de matrice unique, fournissant une nouvelle direction de recherche au domaine PEFT.