COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic
COMPACT : Élagage de Modèle Optimisé par Token Commun sur les Canaux et les Tokens
Cet article propose la méthode d'élagage COMPACT pour résoudre les problèmes d'efficacité des grands modèles de langage (LLM) en termes de mémoire, de latence et de coûts de service. La méthode combine l'élagage du vocabulaire et l'élagage des canaux FFN pondérés par les tokens communs, réalisant une compression des paramètres tout en maintenant l'architecture transformer standard. L'efficacité de la méthode a été validée expérimentalement sur les familles de modèles Qwen, LLaMA et Gemma (0,5B-70B paramètres).
Bien que les grands modèles de langage démontrent des performances exceptionnelles sur diverses tâches de traitement du langage naturel, leur nombre massif de paramètres (des milliards à des centaines de milliards) entraîne des coûts de déploiement élevés, limitant leur application sur les appareils périphériques, les applications interactives et l'inférence à grande échelle.
Élagage en Largeur (Width Pruning) : Supprime les dimensions cachées ou les canaux, mais rompt l'architecture transformer standard, nécessitant un code d'inférence personnalisé
Élagage en Profondeur (Depth Pruning) : Supprime des blocs transformer entiers, préservant l'architecture mais entraînant une dégradation drastique des performances
Mauvaise Adaptabilité à l'Échelle : Les méthodes existantes sont efficaces sur les grands modèles mais performent mal sur les petits modèles de langage (SLM)
Négligence des Caractéristiques Linguistiques : Ne tient pas compte des différences d'importance des tokens, traitant tous les tokens de manière égale
Les distributions de paramètres diffèrent considérablement selon la taille du modèle : les paramètres de vocabulaire représentent une proportion plus importante dans les petits modèles, tandis que les paramètres FFN dominent dans les grands modèles
Le langage naturel suit une distribution de Zipf, où les tokens rares apparaissent avec une fréquence extrêmement basse et contribuent peu aux performances en aval
Analyse Systématique : Première analyse systématique des lois de distribution des paramètres d'embedding, FFN et attention dans les LLM de différentes tailles
Méthode COMPACT : Propose un nouveau cadre combinant l'élagage du vocabulaire et l'élagage FFN pondéré par les tokens communs
Compatibilité Architecturale : Maintient l'architecture transformer standard, compatible avec les cadres d'inférence existants
Adaptation à l'Échelle : Réalise des performances de pointe sur plusieurs familles de modèles de 0,5B à 70B paramètres
Paramètres d'Attention : Nattention=2LD2(1+H1) (H est le ratio du nombre de têtes)
À mesure que l'échelle du modèle augmente, NFFN et Nattention croissent selon O(LD2), tandis que Nvocab ne croît que selon O(D), ce qui explique pourquoi les paramètres de vocabulaire représentent une proportion plus importante dans les petits modèles.
Algorithme 1 COMPACT
Entrée : Modèle M, ensemble de données d'étalonnage D, taille de vocabulaire cible V', dimension intermédiaire cible I'
1. Identifier l'ensemble S des V-V' tokens les plus rares
2. Exécuter la propagation avant sur l'ensemble de données D, collecter les activations au carré
3. Pour chaque canal k, calculer l'importance Ik en utilisant common act²
4. Pour chaque couche : élaguer les I-I' canaux les moins importants
5. Élaguer les paramètres de vocabulaire : supprimer les dernières V-V' lignes des matrices d'embedding et LM head
6. Retourner le modèle élagué M'
Stratégie d'Élagage Double : Combine l'élagage du vocabulaire et l'élagage FFN, adaptée aux caractéristiques de distribution des paramètres de modèles de différentes tailles
Pondération par Tokens Communs : L'élagage FFN ne considère que les tokens qui restent valides après élagage, évitant d'être induit en erreur par les tokens rares
Préservation de l'Architecture : Élague uniquement la taille du vocabulaire et la dimension intermédiaire, maintenant la structure transformer standard
Adaptation à l'Échelle : S'adapte aux besoins de différentes tailles en ajustant les deux hyperparamètres V′ et I′
Dégradation Lisse : COMPACT présente une dégradation lisse des performances, tandis que les méthodes d'élagage en profondeur présentent des sauts de performance soudains
Indépendance Architecturale : COMPACT peut être appliqué directement à de nouvelles architectures comme Gemma 3, tandis que d'autres méthodes nécessitent des modifications spécifiques à l'architecture
Impact Limité des Tokens Rares : Une réduction de 67% du vocabulaire n'affecte que 4% de la retokenisation du texte
Amélioration Limitée du Débit : Comparée aux méthodes d'élagage en profondeur, l'amélioration du débit d'inférence reste limitée
Adaptabilité Domaine de l'Élagage du Vocabulaire : Dans des domaines spécifiques, il peut être nécessaire de conserver davantage de vocabulaire spécialisé
Ajustement des Hyperparamètres : Nécessite de trouver les combinaisons optimales de V′ et I′ pour différents ratios d'élagage
Degré d'Innovation Limité : L'élagage du vocabulaire et l'élagage FFN sont des techniques existantes, la contribution principale réside dans leur combinaison
Analyse Théorique Insuffisante : Manque d'explication théorique approfondie sur pourquoi cette combinaison est efficace
Accélération d'Inférence Limitée : Sur les indicateurs de performance clés (débit), ne surpasse pas les méthodes d'élagage en profondeur
L'article cite de nombreux travaux connexes, incluant principalement :
Méthodes de Quantification : GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
Élagage en Profondeur : Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
Élagage en Largeur : SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
Traitement du Vocabulaire : Travaux connexes d'élagage du vocabulaire multilingue et spécifique au domaine
Évaluation Globale : Cet article est techniquement solide et pratiquement utile. Bien que relativement limité en innovation théorique, il contribue à travers une combinaison ingénieuse de méthodes et une validation expérimentale complète, offrant une solution efficace et facile à déployer pour l'élagage des LLM. En particulier, ses avantages en matière d'élagage des petits modèles de langage et de compatibilité architecturale lui confèrent de bonnes perspectives d'application.