2025-11-17T08:49:21.061208

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

Zou, Yin, Pei et al.

Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.

academic

PermLLM : Permutation de Canaux Apprenables pour les Grands Modèles de Langage N:M Creux

Informations Fondamentales

ID de l'article : 2510.10136
Titre : PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Auteurs : Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu (Université Chinoise de Hong Kong)
Classification : cs.LG cs.AI
Conférence de publication : NeurIPS 2025 (39e Conférence sur les Systèmes de Traitement de l'Information Neuronale)
Lien de l'article : https://arxiv.org/abs/2510.10136
Lien du code : https://github.com/lanchengzou/PermLLM

Résumé

La permutation de canaux est une technique puissante qui améliore la précision des modèles N:M creux en réorganisant les canaux des matrices de poids pour préserver les poids importants en priorité. Cependant, les méthodes traditionnelles de permutation de canaux reposent sur des mesures de qualité conçues manuellement, qui ne capturent souvent pas avec précision l'impact réel de l'élagage sur les performances du modèle. Pour résoudre cette limitation, cet article propose PermLLM, un cadre d'élagage post-entraînement pour la parcimonie N:M qui introduit la permutation de canaux apprenables (LCP). LCP utilise la normalisation de Sinkhorn pour convertir les matrices de permutation discrètes en matrices de permutation souples différentiables, permettant une optimisation de bout en bout. De plus, PermLLM adopte une stratégie efficace de permutation de canaux par blocs, réduisant considérablement le nombre de paramètres apprenables et la complexité de calcul. PermLLM s'intègre de manière transparente aux méthodes d'élagage existantes, optimisant de manière adaptative la permutation de canaux pour atténuer efficacement les erreurs induites par l'élagage.

Contexte de Recherche et Motivation

Définition du Problème

Problème central : Les méthodes traditionnelles de permutation de canaux utilisent des mesures de qualité conçues manuellement (comme la somme de l'importance des poids conservés) pour évaluer les schémas de permutation, mais il existe un écart entre ces mesures et l'erreur d'élagage réelle.
Importance : Avec la croissance rapide de la taille des grands modèles de langage, les techniques de compression de modèles (comme l'élagage) sont essentielles pour un déploiement efficace. La parcimonie N:M attire une attention particulière en raison de sa convivialité matérielle (support des NVIDIA Sparse Tensor Core).
Limitations existantes :
- Les mesures de qualité conçues manuellement ne reflètent pas avec précision l'impact réel de l'élagage sur les performances du modèle
- Les méthodes traditionnelles ne capturent pas suffisamment les interactions complexes entre les couches
- L'espace d'optimisation est énorme (pour Cin canaux d'entrée, il existe Cin! permutations possibles)

Motivation de la Recherche

L'article démontre le problème par un exemple concret (Figure 1) : la permutation de canaux qui maximise les scores d'importance peut entraîner une erreur de sortie plus importante, montrant qu'il existe une différence fondamentale entre les mesures manuelles et les performances réelles.

Contributions Principales

Première proposition de permutation de canaux apprenables (LCP) : Transforme le problème discret de permutation de canaux en un problème d'optimisation différentiable, permettant l'apprentissage de bout en bout.
Technique de normalisation de Sinkhorn : Utilise la normalisation de Sinkhorn pour relaxer les matrices de permutation discrètes en matrices de permutation souples, résolvant le problème de non-différentiabilité des matrices de permutation.
Stratégie de permutation de canaux par blocs : Réduit considérablement la complexité des paramètres de O(C²ᵢₙ) à O(Cᵢₙ×B) et la complexité de calcul de O(C³ᵢₙ) à O(Cᵢₙ×B²).
Conception d'un cadre universel : Peut s'intégrer de manière transparente aux méthodes d'élagage existantes en une seule étape (Wanda, RIA, etc.).
Performances expérimentales exceptionnelles : La méthode a été validée sur plusieurs modèles incluant la série LLaMA, Qwen, OPT, etc.

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné une matrice de poids pré-entraînée W ∈ R^(Cout×Cin), l'objectif est de trouver la matrice de permutation optimale P, de sorte que la matrice de poids réorganisée Ŵ = WP, après application de la parcimonie N:M, minimise la différence de sortie avec le modèle dense original.

Architecture Technique Principale

1. Relaxation de la Matrice de Permutation Souple

Relaxe la matrice de permutation dure P en matrice de permutation souple P̂ :

S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)

où Tr et Tc représentent respectivement les opérations de normalisation par lignes et par colonnes, et τ est un paramètre de température contrôlant la dureté de la matrice de permutation souple.

2. Processus de Durcissement et Approximation du Gradient

Lors de la propagation avant, la matrice de permutation souple est durcie en une matrice de permutation stricte via l'algorithme hongrois :

P = argmax P∈P Tr(P⊤P̂)

Lors de la rétropropagation, un estimateur de passage direct (STE) est utilisé pour approximer le gradient : ∂P/∂P̂ = 1.

3. Permutation de Canaux par Blocs

Pour réduire la complexité de calcul, les canaux sont divisés en plusieurs blocs de taille B, avec une permutation indépendante au sein de chaque bloc :

PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB

Le nombre de paramètres est réduit de C²ᵢₙ à Cᵢₙ×B, et la complexité de calcul est réduite de O(C³ᵢₙ) à O(Cᵢₙ×B²).

Objectif d'Optimisation

PermLLM minimise directement la perte de similarité cosinus entre les sorties du modèle dense et du modèle creux :

Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)

Intégration avec les Méthodes d'Élagage Existantes

PermLLM peut s'intégrer avec n'importe quelle méthode d'élagage en une seule étape basée sur des mesures d'importance. Pour une matrice d'importance donnée S, la matrice d'importance permutée est Ŝ = SPB, et le masque est obtenu par :

argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M

Le STE est utilisé pour traiter la non-différentiabilité de argmax.

Configuration Expérimentale

Ensembles de Données et Modèles

Modèles : LLaMA 7B-13B, LLaMA-2 7B-13B, LLaMA-3.1 8B, Qwen-2.5 7B, OPT 6.7B
Données d'étalonnage : 128 échantillons sélectionnés aléatoirement à partir de l'ensemble de données C4, chacun contenant 1024 jetons
Tâches d'évaluation :
- Modélisation du langage : Wikitext2 (perplexité)
- Tâches sans exemple : HellaSwag, ARC-Easy/Challenge, OpenBookQA, RTE

Méthodes de Comparaison

Méthodes de base : SparseGPT, Wanda, RIA
Permutation de canaux traditionnelle : Wanda+CP, RIA+CP
Méthode proposée : PermLLMWanda, PermLLMRIA

Détails d'Implémentation

Optimiseur : AdamW
Taux d'apprentissage : {1e-3, 5e-3}
Nombre d'itérations de Sinkhorn : 5
Paramètre de température : Décroissance linéaire de 1 à 0,1
Taille de bloc : 64
Temps d'entraînement : Environ 2,5 heures pour le modèle 7B (4 GPU), environ 5,5 heures pour le modèle 13B (8 GPU)

Résultats Expérimentaux

Résultats Principaux

Performances de Modélisation du Langage (Perplexité Wikitext2)

Méthode	LLaMA 7B	LLaMA-2 7B	LLaMA-3.1 8B	Qwen-2.5 7B
Dense	5.68	5.47	6.24	7.74
Wanda	11.59	12.16	23.42	24.44
Wanda+CP	11.07	11.00	21.09	18.76
PermLLMWanda	9.41	9.39	14.03	13.58
RIA+CP	10.99	10.26	19.80	17.58
PermLLMRIA	9.95	9.60	15.79	15.93

Précision Moyenne des Tâches Sans Exemple

Modèle	Wanda	Wanda+CP	PermLLMWanda	Amélioration
LLaMA 7B	41.37	43.94	45.67	+4.3%
LLaMA-2 7B	42.12	43.44	46.59	+4.47%
LLaMA-3.1 8B	38.91	40.72	43.33	+4.42%

Effet d'Accélération de l'Inférence

Avec des noyaux CUDA personnalisés, l'opération de permutation de canaux obtient une accélération de 84× par rapport à l'implémentation PyTorch, avec une amélioration globale de la vitesse d'inférence d'environ 1,67×.

Études d'Ablation

Impact du Nombre d'Itérations de Normalisation de Sinkhorn

Les expériences montrent que 5 itérations de normalisation de Sinkhorn permettent d'obtenir un bon équilibre des performances.

Impact de la Taille de Bloc

Taille de Bloc	Précision Moyenne	Perplexité Wikitext2	Temps d'Entraînement
32	43.58	9.50	2h
64	46.59	9.39	2.5h
128	47.09	9.07	6h

Une taille de bloc de 64 offre le meilleur équilibre entre performance et efficacité.

Robustesse de l'Ensemble de Données d'Étalonnage

Les expériences sur différents ensembles de données d'étalonnage (Pile, Wikitext2, C4) montrent que la méthode possède une bonne robustesse.

Analyse de Cas

L'article fournit des visualisations de masques (Figure 3), montrant que la permutation apprise par PermLLM produit des motifs de conservation des poids différents des méthodes traditionnelles, validant l'efficacité de l'optimisation de bout en bout.

Travaux Connexes

Élagage des Grands Modèles de Langage

Élagage structuré : Suppression de structures à grain grossier (canaux, couches, blocs)
Élagage non structuré : Le plus flexible mais difficile à accélérer matériellement
Élagage semi-structuré : La parcimonie N:M équilibre la flexibilité et la convivialité matérielle

Techniques de Permutation de Canaux

Les premiers travaux se concentraient principalement sur la recherche exhaustive pour les petits réseaux
RIA a proposé une méthode d'assignation de canaux heuristique
Cet article introduit pour la première fois une méthode d'optimisation apprenante de bout en bout

Apprentissage de la Parcimonie N:M

Les méthodes comme SR-STE entraînent les modèles N:M creux à partir de zéro
Les méthodes comme MaskLLM apprennent la parcimonie semi-structurée
Cet article se concentre sur le scénario d'élagage post-entraînement

Conclusion et Discussion

Conclusions Principales

Efficacité de la méthode : PermLLM surpasse considérablement les méthodes traditionnelles de permutation de canaux sur plusieurs modèles et tâches
Universalité : Peut s'intégrer de manière transparente aux méthodes d'élagage existantes
Praticité : Réalise une efficacité de calcul pratique grâce à la stratégie de blocs et aux noyaux CUDA personnalisés

Limitations

Surcharge de calcul : Bien que la stratégie de blocs réduise considérablement la complexité, elle nécessite toujours plus de ressources de calcul que les méthodes traditionnelles
Portée d'application : La méthode est spécifiquement conçue pour l'élagage semi-structuré, et son application à d'autres tâches de compression (comme la quantification) reste à explorer
Convergence : Les tailles de bloc plus grandes nécessitent plus d'itérations pour converger

Directions Futures

Explorer les applications dans d'autres tâches de compression de modèles telles que la quantification
Améliorer davantage l'efficacité de l'entraînement
Étudier des stratégies d'optimisation de couches partielles plus efficaces

Évaluation Approfondie

Points Forts

Innovation technique forte : Première transformation du problème de permutation de canaux en un problème apprenante de bout en bout, avec une approche technique novatrice
Fondations théoriques solides : L'utilisation combinée de la normalisation de Sinkhorn et du STE est théoriquement justifiée
Expériences complètes : Évaluation complète sur plusieurs modèles, ensembles de données et tâches
Implémentation d'ingénierie complète : Fournit des noyaux CUDA personnalisés, tenant compte des besoins de déploiement réel
Rédaction claire : Structure de l'article claire, description précise des détails techniques

Insuffisances

Surcharge de calcul : Bien qu'il existe une stratégie de blocs, le coût d'entraînement reste élevé
Analyse théorique insuffisante : Manque d'analyse de convergence et de garanties théoriques
Portée d'application limitée : Principalement applicable à la parcimonie N:M, la généralisation reste à vérifier
Comparaison de base insuffisante : Comparaison insuffisante avec certaines méthodes d'élagage récentes

Impact

Valeur académique : Ouvre une nouvelle voie technique pour la recherche sur la permutation de canaux
Valeur pratique : Possède une valeur d'application directe dans le domaine de la compression des grands modèles de langage
Reproductibilité : Fournit une implémentation de code complète et des paramètres expérimentaux détaillés

Scénarios Applicables

Déploiement de grands modèles de langage : Particulièrement adapté aux scénarios de déploiement N:M creux nécessitant une accélération matérielle
Environnements aux ressources limitées : Poursuivre une qualité de compression plus élevée lorsque les ressources de calcul sont suffisantes
Prototypes de recherche : Fournir une base technique pour la recherche ultérieure sur l'élagage et la compression

Références

L'article cite 66 références connexes, couvrant principalement :

Travaux fondamentaux sur les grands modèles de langage (GPT, LLaMA, etc.)
Méthodes classiques d'élagage de réseaux (Magnitude Pruning, SparseGPT, etc.)
Recherches connexes sur la parcimonie N:M (RIA, SR-STE, etc.)
Fondations théoriques d'optimisation (normalisation de Sinkhorn, algorithme hongrois, etc.)

Évaluation Globale : Ceci est un article de haute qualité avec une forte innovation technique, des expériences complètes et une implémentation d'ingénierie complète. En transformant un problème d'optimisation discrète en un problème d'optimisation continue, il apporte une avancée révolutionnaire à la technique de permutation de canaux. Bien qu'il existe des limitations en termes de surcharge de calcul et de portée d'application, ses contributions au domaine de la compression des grands modèles de langage sont significatives, possédant une valeur académique et pratique importante.