PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Zou, Yin, Pei et al.
Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
academic
PermLLM : Permutation de Canaux Apprenables pour les Grands Modèles de Langage N:M Creux
La permutation de canaux est une technique puissante qui améliore la précision des modèles N:M creux en réorganisant les canaux des matrices de poids pour préserver les poids importants en priorité. Cependant, les méthodes traditionnelles de permutation de canaux reposent sur des mesures de qualité conçues manuellement, qui ne capturent souvent pas avec précision l'impact réel de l'élagage sur les performances du modèle. Pour résoudre cette limitation, cet article propose PermLLM, un cadre d'élagage post-entraînement pour la parcimonie N:M qui introduit la permutation de canaux apprenables (LCP). LCP utilise la normalisation de Sinkhorn pour convertir les matrices de permutation discrètes en matrices de permutation souples différentiables, permettant une optimisation de bout en bout. De plus, PermLLM adopte une stratégie efficace de permutation de canaux par blocs, réduisant considérablement le nombre de paramètres apprenables et la complexité de calcul. PermLLM s'intègre de manière transparente aux méthodes d'élagage existantes, optimisant de manière adaptative la permutation de canaux pour atténuer efficacement les erreurs induites par l'élagage.
Problème central : Les méthodes traditionnelles de permutation de canaux utilisent des mesures de qualité conçues manuellement (comme la somme de l'importance des poids conservés) pour évaluer les schémas de permutation, mais il existe un écart entre ces mesures et l'erreur d'élagage réelle.
Importance : Avec la croissance rapide de la taille des grands modèles de langage, les techniques de compression de modèles (comme l'élagage) sont essentielles pour un déploiement efficace. La parcimonie N:M attire une attention particulière en raison de sa convivialité matérielle (support des NVIDIA Sparse Tensor Core).
Limitations existantes :
Les mesures de qualité conçues manuellement ne reflètent pas avec précision l'impact réel de l'élagage sur les performances du modèle
Les méthodes traditionnelles ne capturent pas suffisamment les interactions complexes entre les couches
L'espace d'optimisation est énorme (pour Cin canaux d'entrée, il existe Cin! permutations possibles)
L'article démontre le problème par un exemple concret (Figure 1) : la permutation de canaux qui maximise les scores d'importance peut entraîner une erreur de sortie plus importante, montrant qu'il existe une différence fondamentale entre les mesures manuelles et les performances réelles.
Première proposition de permutation de canaux apprenables (LCP) : Transforme le problème discret de permutation de canaux en un problème d'optimisation différentiable, permettant l'apprentissage de bout en bout.
Technique de normalisation de Sinkhorn : Utilise la normalisation de Sinkhorn pour relaxer les matrices de permutation discrètes en matrices de permutation souples, résolvant le problème de non-différentiabilité des matrices de permutation.
Stratégie de permutation de canaux par blocs : Réduit considérablement la complexité des paramètres de O(C²ᵢₙ) à O(Cᵢₙ×B) et la complexité de calcul de O(C³ᵢₙ) à O(Cᵢₙ×B²).
Conception d'un cadre universel : Peut s'intégrer de manière transparente aux méthodes d'élagage existantes en une seule étape (Wanda, RIA, etc.).
Performances expérimentales exceptionnelles : La méthode a été validée sur plusieurs modèles incluant la série LLaMA, Qwen, OPT, etc.
Étant donné une matrice de poids pré-entraînée W ∈ R^(Cout×Cin), l'objectif est de trouver la matrice de permutation optimale P, de sorte que la matrice de poids réorganisée Ŵ = WP, après application de la parcimonie N:M, minimise la différence de sortie avec le modèle dense original.
où Tr et Tc représentent respectivement les opérations de normalisation par lignes et par colonnes, et τ est un paramètre de température contrôlant la dureté de la matrice de permutation souple.
Pour réduire la complexité de calcul, les canaux sont divisés en plusieurs blocs de taille B, avec une permutation indépendante au sein de chaque bloc :
PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB
Le nombre de paramètres est réduit de C²ᵢₙ à Cᵢₙ×B, et la complexité de calcul est réduite de O(C³ᵢₙ) à O(Cᵢₙ×B²).
PermLLM peut s'intégrer avec n'importe quelle méthode d'élagage en une seule étape basée sur des mesures d'importance. Pour une matrice d'importance donnée S, la matrice d'importance permutée est Ŝ = SPB, et le masque est obtenu par :
argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M
Le STE est utilisé pour traiter la non-différentiabilité de argmax.
Avec des noyaux CUDA personnalisés, l'opération de permutation de canaux obtient une accélération de 84× par rapport à l'implémentation PyTorch, avec une amélioration globale de la vitesse d'inférence d'environ 1,67×.
L'article fournit des visualisations de masques (Figure 3), montrant que la permutation apprise par PermLLM produit des motifs de conservation des poids différents des méthodes traditionnelles, validant l'efficacité de l'optimisation de bout en bout.
Surcharge de calcul : Bien que la stratégie de blocs réduise considérablement la complexité, elle nécessite toujours plus de ressources de calcul que les méthodes traditionnelles
Portée d'application : La méthode est spécifiquement conçue pour l'élagage semi-structuré, et son application à d'autres tâches de compression (comme la quantification) reste à explorer
Convergence : Les tailles de bloc plus grandes nécessitent plus d'itérations pour converger
Innovation technique forte : Première transformation du problème de permutation de canaux en un problème apprenante de bout en bout, avec une approche technique novatrice
Fondations théoriques solides : L'utilisation combinée de la normalisation de Sinkhorn et du STE est théoriquement justifiée
Expériences complètes : Évaluation complète sur plusieurs modèles, ensembles de données et tâches
Implémentation d'ingénierie complète : Fournit des noyaux CUDA personnalisés, tenant compte des besoins de déploiement réel
Rédaction claire : Structure de l'article claire, description précise des détails techniques
Travaux fondamentaux sur les grands modèles de langage (GPT, LLaMA, etc.)
Méthodes classiques d'élagage de réseaux (Magnitude Pruning, SparseGPT, etc.)
Recherches connexes sur la parcimonie N:M (RIA, SR-STE, etc.)
Fondations théoriques d'optimisation (normalisation de Sinkhorn, algorithme hongrois, etc.)
Évaluation Globale : Ceci est un article de haute qualité avec une forte innovation technique, des expériences complètes et une implémentation d'ingénierie complète. En transformant un problème d'optimisation discrète en un problème d'optimisation continue, il apporte une avancée révolutionnaire à la technique de permutation de canaux. Bien qu'il existe des limitations en termes de surcharge de calcul et de portée d'application, ses contributions au domaine de la compression des grands modèles de langage sont significatives, possédant une valeur académique et pratique importante.