2025-11-20T05:49:14.768535

MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure

Kang, Yin

Low-Rank Adaptation (LoRA) is a widely adopted technique for parameter-efficient fine-tuning, but its slow convergence has spurred the development of numerous variants. Nevertheless, existing methods often fail to improve performance, memory footprint, and computational efficiency simultaneously. To address this challenge, we revisit the causes of LoRA's slow convergence. Building on these insights, we propose Matrix Shard Sharing (MiSS), which updates shards of the original weight matrix using a single shared trainable matrix $\boldsymbol{D}$, initialized to zeros. To simultaneously ensure computational efficiency, low memory footprint, and scalable serving, we introduce MiSS$^e$. Both theoretical analysis and empirical results demonstrate that our method reduces optimization complexity without compromising performance, thereby achieving a more favorable trade-off among performance, memory, and efficiency. Furthermore, we conduct a comprehensive comparative analysis of various PEFT methods, evaluating their memory usage, initialization overhead, and computational efficiency. By mapping the Pareto frontier across these dimensions, we show that MiSS occupies a favorable position, effectively capturing the advantages of prior approaches.

academic

MiSS : Réexamen du Compromis dans LoRA avec une Structure Efficace de Partage de Fragments

Informations Fondamentales

ID de l'article : 2409.15371
Titre : MiSS: Revisiting the Trade-off in LoRA with an Efficient Shard-Sharing Structure
Auteurs : Jiale Kang (Yuanshi Inc), Qingyu Yin (Université de Zhejiang)
Classification : cs.CL cs.AI
Date de publication : 14 octobre 2025 (préimpression arXiv)
Lien de l'article : https://arxiv.org/abs/2409.15371v11

Résumé

L'Adaptation de Faible Rang (LoRA) est une technique largement adoptée d'ajustement fin paramétrique efficace, mais sa convergence lente a motivé le développement de nombreuses variantes. Cependant, les méthodes existantes ne parviennent généralement pas à améliorer simultanément la performance, l'utilisation mémoire et l'efficacité computationnelle. Pour relever ce défi, cet article réexamine les causes fondamentales de la convergence lente de LoRA. Sur la base de ces intuitions, les auteurs proposent la méthode Matrix Shard Sharing (MiSS), qui utilise une seule matrice entraînable partagée $\boldsymbol{D}$ (initialisée à zéro) pour mettre à jour les fragments de la matrice de poids d'origine. Pour assurer simultanément l'efficacité computationnelle, une faible utilisation mémoire et une scalabilité de service, les auteurs introduisent MiSS $^e$ . L'analyse théorique et les résultats expérimentaux démontrent que cette méthode réduit la complexité d'optimisation sans compromettre la performance, réalisant ainsi un compromis plus favorable entre performance, mémoire et efficacité.

Contexte de Recherche et Motivation

Définition du Problème

L'ajustement fin de tous les paramètres des modèles de langage volumineux (LLMs) est prohibitif sur le plan computationnel, d'où l'émergence des techniques d'ajustement fin paramétrique efficace (PEFT). LoRA, en tant que l'une des méthodes PEFT les plus éminentes, approxime les mises à jour de poids par décomposition de faible rang : $\Delta W \approx BA$ , où $B \in \mathbb{R}^{d \times r}$ , $A \in \mathbb{R}^{r \times k}$ , et $r \ll \min(d,k)$ .

Limitations des Méthodes Existantes

Convergence lente : LoRA converge significativement plus lentement que l'ajustement fin complet
Complexité d'optimisation : Nécessite la mise à jour simultanée des matrices A et B, augmentant la complexité d'optimisation
Compromis difficile : Les variantes LoRA existantes peinent à équilibrer performance, mémoire et efficacité

Motivation de la Recherche

En analysant les méthodes S2FT et LoRA+, les auteurs découvrent que la cause clé de la convergence lente de LoRA est la nécessité d'optimiser simultanément deux matrices. Sur la base de l'hypothèse que « l'entraînement d'une seule matrice peut simplifier l'optimisation sans sacrifier la capacité d'expression », les auteurs proposent la méthode MiSS.

Contributions Principales

Proposition de la méthode MiSS : Une structure efficace et adaptative avec un mécanisme de partage de fragments, réalisant un équilibre efficace entre trois attributs clés : performance, efficacité mémoire et efficacité computationnelle
Vérification théorique et expérimentale : Validation par expériences à grande échelle de la supériorité de MiSS sur des ensembles de données et architectures de modèles diversifiés
Comparaison complète des méthodes PEFT : Évaluation synthétique de plusieurs méthodes PEFT en termes d'utilisation mémoire, surcharge d'initialisation et efficacité computationnelle
Analyse de la frontière de Pareto : Démonstration que MiSS occupe une position favorable en cartographiant la frontière de Pareto de ces dimensions

Détails de la Méthode

Définition de la Tâche

Étant donné une matrice de poids pré-entraînée $W_0 \in \mathbb{R}^{d \times k}$ , l'objectif est d'apprendre une mise à jour paramétrique efficace $\Delta W$ de sorte que le modèle ajusté fonctionne bien sur les tâches en aval, tout en minimisant le nombre de paramètres entraînables et les frais computationnels.

Architecture du Modèle

Forme de Base de MiSS

MiSS définit la mise à jour de poids comme une grande matrice générée à partir d'une petite matrice entraînable $D$ via une opération d'expansion :

$W = W_0 + \Delta W = W_0 + \text{expand}(D)$ $y = W_0x + \text{expand}(D)x$

où $D \in \mathbb{R}^{r_1 \times r_2}$ , $(r_1, r_2) \ll \min(d,k)$ .

Mécanisme d'Expansion

La dimension de sortie $d$ est divisée en $N$ fragments de tailles $\{s_1, s_2, \ldots, s_N\}$ , où $\sum_{i=1}^N s_i = d$ . Pour chaque fragment $i$ , sa mise à jour est déterminée par la répétition de la $i$ -ème ligne $D_i$ de $D$ un nombre $s_i$ de fois :

$(\text{expand}(D))^T = [(1_{s_1}D_1)^T \quad (1_{s_2}D_2)^T \quad \ldots \quad (1_{s_N}D_N)^T]$

Implémentation Efficace MiSS $^e$

Pour éviter la formation explicite d'une grande matrice, MiSS $^e$ redéfinit $D \in \mathbb{R}^{r \times d}$ , divisant la dimension d'entrée $k$ en $r$ blocs :

$x = [x^{(1)}, x^{(2)}, \ldots, x^{(r)}], \quad x^{(i)} \in \mathbb{R}^{b \times l \times g}$

$S = \left[\sum_{j=1}^g x^{(1)}_{[:,:,j]}, \sum_{j=1}^g x^{(2)}_{[:,:,j]}, \ldots, \sum_{j=1}^g x^{(r)}_{[:,:,j]}\right] \in \mathbb{R}^{b \times l \times r}$

$\Delta Wx = D^T S, \quad y = W_0x + D^T S$

Points d'Innovation Technique

Optimisation de matrice unique : Contrairement à LoRA qui nécessite l'optimisation simultanée des matrices A et B, MiSS n'optimise qu'une seule matrice D, réduisant la complexité d'optimisation
Mécanisme de partage de fragments : Réalise les propriétés de faible rang par structure matricielle répétée tout en maintenant la capacité d'expression
Implémentation efficace : MiSS $^e$ évite le stockage explicite de grandes matrices par agrégation d'entrées au niveau des blocs, réduisant significativement l'utilisation mémoire

Configuration Expérimentale

Ensembles de Données

Compréhension du Langage Naturel (NLU) : Sous-ensemble du benchmark GLUE, incluant MNLI, SST-2, CoLA, QNLI, MRPC
Génération du Langage Naturel (NLG) :
- Tâches mathématiques : Ensemble de données MetaMathQA (sous-ensemble de 395k), évaluation sur GSM8K et MATH
- Tâches de codage : Ensemble de données CodeFeedback (sous-ensemble de 100k), évaluation sur HumanEval et Mbpp

Métriques d'Évaluation

Tâches NLU : Précision
Tâches mathématiques : Précision sur les benchmarks GSM8K et MATH
Tâches de codage : Taux de réussite sur HumanEval et Mbpp
Métriques d'efficacité : Temps d'entraînement, utilisation mémoire, temps d'initialisation

Méthodes de Comparaison

LoRA, PiSSA, DoRA, VeRA, AdaLoRA, ProLoRA, MoS et plusieurs autres méthodes PEFT

Détails d'Implémentation

Optimiseur : AdamW
Taux d'apprentissage : 2e-5
Taille de lot : 64-128
Planification du taux d'apprentissage : Décroissance cosinus
Paramètre de rang MiSS : 16-128 (ajusté selon la tâche)

Résultats Expérimentaux

Résultats Principaux

Performance sur les Tâches NLU

Dans les tests de benchmark GLUE sur RoBERTa-base, MiSS se distingue particulièrement sur l'ensemble de données CoLA, atteignant un score de 72,86, surpassant significativement LoRA (62,40) et PiSSA (67,28).

Performance sur les Tâches NLG

Les résultats expérimentaux sur plusieurs modèles de langage volumineux montrent :

LLaMA2-7B :

GSM8K : MiSS(48,16) > PiSSA(43,89) > DoRA(42,93) > LoRA(40,75)
Math : MiSS(8,58) > PiSSA(6,92) > DoRA(6,51) > LoRA(5,22)
HumanEval : MiSS(23,63) > PiSSA(22,15) > DoRA(21,95) > LoRA(17,74)

Qwen3-4B :

Math : MiSS(34,82) dépasse largement les autres méthodes, PiSSA(26,00), DoRA(21,73), LoRA(15,20)

Analyse de la Norme du Gradient

L'analyse de la norme du gradient initial valide la conception de MiSS. Les expériences démontrent que MiSS, comme les autres variantes LoRA améliorées, possède une norme de gradient initial plus grande que LoRA standard, ce qui est associé à une convergence plus rapide en phase initiale.

Analyse d'Efficacité

Comparaison de Complexité

Méthode	Complexité Spatiale	Complexité Temporelle
Full	O(dk)	O(bld(d+k))
LoRA	O(dr+rk)	O(blr(d+k))
MiSS	O(dr)	O(bldk)
MiSS $^e$	O(dr)	O(blr(d+k/r))

Analyse de la Frontière de Pareto

L'évaluation synthétique sur LLaMA-3.2-3B montre que MiSS occupe la position optimale dans le compromis performance-efficacité, réalisant la meilleure précision de test (0,5080) tout en maintenant une utilisation mémoire et un temps d'entraînement faibles.

Expériences d'Ablation

Impact du Paramètre de Rang

Test de l'impact de différentes valeurs de rang sur LLaMA2-7B :

rang=16 : GSM8K(45,90), Math(3,77), paramètres 21,7M
rang=32 : GSM8K(46,18), Math(7,43), paramètres 43,5M
rang=64 : GSM8K(48,16), Math(8,58), paramètres 87,0M
rang=128 : GSM8K(53,49), Math(10,08), paramètres 174,0M

Les résultats montrent que la performance augmente de manière monotone avec le rang, rang=64 offrant un bon équilibre performance-paramètres.

Travaux Connexes

Classification des Méthodes d'Amélioration de LoRA

Améliorations adaptatives : PiSSA, LoRA-GA, LoRA+, etc., principalement en modifiant les stratégies d'initialisation pour accélérer la convergence
Optimisations d'efficacité : VeRA, ProLoRA, MoS, etc., se concentrant sur la réduction des frais computationnels et mémoire

Avantages Relatifs de cet Article

Comparée aux méthodes existantes, MiSS améliore significativement l'efficacité tout en maintenant la performance grâce à une stratégie d'optimisation de matrice unique, évitant le processus d'initialisation coûteux des méthodes comme PiSSA, et ne nécessitant pas les exigences spéciales d'optimiseur des méthodes comme LoRA-GA.

Conclusion et Discussion

Conclusions Principales

Optimisation de matrice unique : Démontre que l'optimisation de matrice unique comparée à l'optimisation de double matrice peut réduire la complexité d'optimisation et accélérer la convergence
Compromis efficace : MiSS réalise un meilleur équilibre entre performance, mémoire et efficacité computationnelle
Applicabilité générale : Démontre une supériorité cohérente sur diverses architectures de modèles et types de tâches

Limitations

Profondeur de l'analyse théorique : Bien que fournissant une analyse de complexité, l'explication théorique de pourquoi l'optimisation de matrice unique est plus efficace manque de profondeur
Sensibilité aux hyperparamètres : Le choix optimal du paramètre de rang pour différentes tâches et modèles peut nécessiter un ajustement supplémentaire
Généralité du mécanisme d'expansion : La stratégie actuelle d'expansion de fragments peut ne pas être optimale, avec espace d'amélioration

Directions Futures

Fondements théoriques : Approfondir la recherche sur les bases théoriques de l'optimisation de matrice unique
Sélection adaptative de rang : Développer des méthodes pour sélectionner automatiquement le rang optimal
Extension multimodale : Étendre MiSS aux tâches multimodales

Évaluation Approfondie

Points Forts

Innovation forte : Le mécanisme de partage de fragments proposé est une approche nouvelle et efficace
Expériences complètes : Couvre plusieurs modèles, ensembles de données et dimensions d'évaluation, avec une conception expérimentale solide
Valeur pratique élevée : Améliore significativement l'efficacité tout en maintenant la performance, avec une forte praticité
Analyse complète : Analyse approfondie sous plusieurs angles incluant norme du gradient, complexité et frontière de Pareto

Insuffisances

Explication théorique : L'explication théorique de pourquoi MiSS maintient la capacité d'expression sous optimisation de matrice unique manque de profondeur
Comparaison de référence : Manque de comparaison avec certaines méthodes PEFT les plus récentes
Performance sur séquences longues : Test insuffisant sur les tâches de séquences longues

Impact

Contribution académique : Fournit une nouvelle direction de conception au domaine PEFT, pouvant inspirer davantage de recherches connexes
Valeur pratique : La méthode est simple, efficace, facile à implémenter et déployer
Reproductibilité : Fournit des détails d'implémentation détaillés et du code open-source

Scénarios d'Application

Environnements à ressources limitées : Particulièrement adapté aux scénarios avec mémoire GPU limitée
Déploiement à grande échelle : En raison de son efficacité, adapté aux applications nécessitant un déploiement à grande échelle
Apprentissage multitâche : Peut servir d'adaptateur efficace dans l'apprentissage multitâche

Références

L'article cite les méthodes PEFT importantes comme LoRA, PiSSA, DoRA, ainsi que les benchmarks d'évaluation standard comme GSM8K et MATH, fournissant un contexte complet et une base de comparaison pour les recherches connexes.

Évaluation Générale : Ceci est un article PEFT de haute qualité proposant la méthode MiSS avec une certaine innovation théorique, une vérification expérimentale complète et une valeur pratique considérable. La contribution principale de l'article réside dans la réalisation d'un meilleur compromis performance-efficacité par optimisation de matrice unique, fournissant une nouvelle direction de recherche au domaine PEFT.