2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic

COMPACT : Élagage de Modèle Optimisé par Token Commun sur les Canaux et les Tokens

Informations Fondamentales

  • ID de l'article : 2509.06836
  • Titre : COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
  • Auteurs : Eugene Kwek, Wenpeng Yin (Université d'État de Pennsylvanie)
  • Classification : cs.CL cs.AI cs.LG
  • Statut de publication : Préimpression en cours d'examen
  • Lien de l'article : https://arxiv.org/abs/2509.06836v3

Résumé

Cet article propose la méthode d'élagage COMPACT pour résoudre les problèmes d'efficacité des grands modèles de langage (LLM) en termes de mémoire, de latence et de coûts de service. La méthode combine l'élagage du vocabulaire et l'élagage des canaux FFN pondérés par les tokens communs, réalisant une compression des paramètres tout en maintenant l'architecture transformer standard. L'efficacité de la méthode a été validée expérimentalement sur les familles de modèles Qwen, LLaMA et Gemma (0,5B-70B paramètres).

Contexte de Recherche et Motivation

Définition du Problème

Bien que les grands modèles de langage démontrent des performances exceptionnelles sur diverses tâches de traitement du langage naturel, leur nombre massif de paramètres (des milliards à des centaines de milliards) entraîne des coûts de déploiement élevés, limitant leur application sur les appareils périphériques, les applications interactives et l'inférence à grande échelle.

Limitations des Méthodes Existantes

  1. Élagage en Largeur (Width Pruning) : Supprime les dimensions cachées ou les canaux, mais rompt l'architecture transformer standard, nécessitant un code d'inférence personnalisé
  2. Élagage en Profondeur (Depth Pruning) : Supprime des blocs transformer entiers, préservant l'architecture mais entraînant une dégradation drastique des performances
  3. Mauvaise Adaptabilité à l'Échelle : Les méthodes existantes sont efficaces sur les grands modèles mais performent mal sur les petits modèles de langage (SLM)
  4. Négligence des Caractéristiques Linguistiques : Ne tient pas compte des différences d'importance des tokens, traitant tous les tokens de manière égale

Motivation de la Recherche

Les auteurs ont découvert par analyse que :

  • Les distributions de paramètres diffèrent considérablement selon la taille du modèle : les paramètres de vocabulaire représentent une proportion plus importante dans les petits modèles, tandis que les paramètres FFN dominent dans les grands modèles
  • Le langage naturel suit une distribution de Zipf, où les tokens rares apparaissent avec une fréquence extrêmement basse et contribuent peu aux performances en aval

Contributions Fondamentales

  1. Analyse Systématique : Première analyse systématique des lois de distribution des paramètres d'embedding, FFN et attention dans les LLM de différentes tailles
  2. Méthode COMPACT : Propose un nouveau cadre combinant l'élagage du vocabulaire et l'élagage FFN pondéré par les tokens communs
  3. Compatibilité Architecturale : Maintient l'architecture transformer standard, compatible avec les cadres d'inférence existants
  4. Adaptation à l'Échelle : Réalise des performances de pointe sur plusieurs familles de modèles de 0,5B à 70B paramètres

Détails de la Méthode

Analyse de la Distribution des Paramètres

Les auteurs analysent d'abord la distribution des paramètres du transformer décodeur moderne :

  • Paramètres de Vocabulaire : Nvocab=2VDN_{vocab} = 2VD (couches d'embedding et LM head)
  • Paramètres FFN : NFFN=3LDIN_{FFN} = 3LDI (L couches, dimension intermédiaire I)
  • Paramètres d'Attention : Nattention=2LD2(1+1H)N_{attention} = 2LD^2(1 + \frac{1}{H}) (H est le ratio du nombre de têtes)

À mesure que l'échelle du modèle augmente, NFFNN_{FFN} et NattentionN_{attention} croissent selon O(LD2)O(LD^2), tandis que NvocabN_{vocab} ne croît que selon O(D)O(D), ce qui explique pourquoi les paramètres de vocabulaire représentent une proportion plus importante dans les petits modèles.

Architecture COMPACT

1. Élagage du Vocabulaire (Vocabulary Pruning)

  • Principe : Basé sur la caractéristique que le tokeniseur BPE suit une distribution de Zipf, supprime les VVV-V' tokens les plus rares
  • Implémentation : Supprime directement les lignes correspondantes des matrices d'embedding et LM head, ainsi que les règles de fusion du tokeniseur
  • Avantages : Ne nécessite pas de données d'étalonnage, calcul efficace

2. Élagage FFN Pondéré par les Tokens Communs

La méthode act² traditionnelle calcule l'importance du canal comme : Ik=i=1N(SiLU(XiWgate)XiWup)k2I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k

La méthode common act² proposée par COMPACT : Ik=i=1Nwi(SiLU(XiWgate)XiWup)k2,wi={0xiS1sinonI_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{sinon} \end{cases}

SS est l'ensemble des tokens rares à élaguer.

Flux Algorithmique

Algorithme 1 COMPACT
Entrée : Modèle M, ensemble de données d'étalonnage D, taille de vocabulaire cible V', dimension intermédiaire cible I'
1. Identifier l'ensemble S des V-V' tokens les plus rares
2. Exécuter la propagation avant sur l'ensemble de données D, collecter les activations au carré
3. Pour chaque canal k, calculer l'importance Ik en utilisant common act²
4. Pour chaque couche : élaguer les I-I' canaux les moins importants
5. Élaguer les paramètres de vocabulaire : supprimer les dernières V-V' lignes des matrices d'embedding et LM head
6. Retourner le modèle élagué M'

Points d'Innovation Technique

  1. Stratégie d'Élagage Double : Combine l'élagage du vocabulaire et l'élagage FFN, adaptée aux caractéristiques de distribution des paramètres de modèles de différentes tailles
  2. Pondération par Tokens Communs : L'élagage FFN ne considère que les tokens qui restent valides après élagage, évitant d'être induit en erreur par les tokens rares
  3. Préservation de l'Architecture : Élague uniquement la taille du vocabulaire et la dimension intermédiaire, maintenant la structure transformer standard
  4. Adaptation à l'Échelle : S'adapte aux besoins de différentes tailles en ajustant les deux hyperparamètres VV' et II'

Configuration Expérimentale

Modèles Évalués

  • Petits Modèles de Langage : Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
  • Grands Modèles de Langage : LLaMA 3.1-8B, LLaMA 3.1-70B

Ensembles de Données et Tâches

  • Données d'Étalonnage : 256 échantillons de l'ensemble de données C4
  • Tâches d'Évaluation : MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

Méthodes de Comparaison

  • Élagage en Profondeur : ShortGPT, LaCo
  • Élagage en Largeur : SliceGPT, 2SSP, FLAP

Indicateurs d'Évaluation

  • Ratio d'élagage des paramètres, précision moyenne, taux de conservation des performances relatives
  • Temps d'élagage, débit d'inférence, utilisation de la mémoire GPU

Résultats Expérimentaux

Résultats Principaux

Performances des Petits Modèles de Langage

Sur Qwen 2.5-0.5B avec un ratio d'élagage de 35% :

  • COMPACT : Précision moyenne de 35,3% (70,4% de performance relative)
  • Meilleure baseline : 31,4% (62,5% de performance relative)

Sur LLaMA 3.2-1B avec un ratio d'élagage de 35% :

  • COMPACT : Précision moyenne de 36,9% (76,4% de performance relative)
  • Meilleure baseline : 33,6% (69,6% de performance relative)

Performances des Grands Modèles de Langage

Sur LLaMA 3.1-70B avec un ratio d'élagage de 35% :

  • COMPACT : Précision moyenne de 63,7% (80,2% de performance relative)
  • 2SSP : 62,8% (79,1% de performance relative)

Analyse d'Efficacité

Comparaison des Temps d'Élagage (LLaMA 3.1-8B, 35% d'élagage)

  • COMPACT : 0:32
  • 2SSP : 1:26
  • SliceGPT : 10:48

Efficacité d'Inférence (LLaMA 3.1-8B, 35% d'élagage)

  • Utilisation de la Mémoire : COMPACT réduit de 36% (optimal), ShortGPT/LaCo réduisent de 25%
  • Amélioration du Débit : COMPACT améliore de 37%, ShortGPT/LaCo améliorent de 57%

Études d'Ablation

Efficacité de Common act²

Sur Qwen 2.5-0.5B avec 35% d'élagage :

  • Common act² : 70,4% de performance relative
  • act² standard : 69,2% de performance relative
  • Méthode |act| : 67,6% de performance relative

Analyse du Compromis Vocabulaire-FFN

Avec un ratio d'élagage fixe de 37%, différentes combinaisons de VV' et II' :

  • Élagage pur FFN (V'=151936) : 63,0% de performance relative
  • Combinaison optimale (V'=49536) : 70,4% de performance relative

Découvertes Importantes

  1. Dégradation Lisse : COMPACT présente une dégradation lisse des performances, tandis que les méthodes d'élagage en profondeur présentent des sauts de performance soudains
  2. Indépendance Architecturale : COMPACT peut être appliqué directement à de nouvelles architectures comme Gemma 3, tandis que d'autres méthodes nécessitent des modifications spécifiques à l'architecture
  3. Impact Limité des Tokens Rares : Une réduction de 67% du vocabulaire n'affecte que 4% de la retokenisation du texte

Travaux Connexes

Élagage en Profondeur

  • Méthodes Représentatives : Shortened LLaMA, SLEB, LLM-Streamline
  • Avantages : Préserve l'architecture standard, accélération d'inférence notable
  • Inconvénients : La suppression à grain grossier entraîne une dégradation drastique des performances

Élagage en Largeur

  • Méthodes Représentatives : LLM-Pruner, SliceGPT, FLAP, 2SSP
  • Avantages : Contrôle à grain fin, dégradation des performances relativement lisse
  • Inconvénients : Rompt l'architecture standard, nécessite un code d'inférence personnalisé

Élagage du Vocabulaire

  • Travaux Existants : Principalement axés sur l'élagage du vocabulaire pour des langues/domaines spécifiques
  • Contribution de cet Article : Élagage du vocabulaire pour LLM généraliste, formant un cadre complet en combinaison avec l'élagage FFN

Conclusion et Discussion

Conclusions Principales

  1. COMPACT réalise des performances d'élagage de pointe sur plusieurs familles de modèles et échelles
  2. La méthode préserve l'architecture transformer standard, offrant une bonne compatibilité de déploiement
  3. La stratégie d'élagage double s'adapte efficacement aux caractéristiques de distribution des paramètres de modèles de différentes tailles

Limitations

  1. Amélioration Limitée du Débit : Comparée aux méthodes d'élagage en profondeur, l'amélioration du débit d'inférence reste limitée
  2. Adaptabilité Domaine de l'Élagage du Vocabulaire : Dans des domaines spécifiques, il peut être nécessaire de conserver davantage de vocabulaire spécialisé
  3. Ajustement des Hyperparamètres : Nécessite de trouver les combinaisons optimales de VV' et II' pour différents ratios d'élagage

Directions Futures

Les auteurs proposent de réduire davantage l'écart entre l'élagage en largeur et l'élagage en profondeur en termes de débit.

Évaluation Approfondie

Points Forts

  1. Fondations Théoriques Solides : Guidée par l'analyse de la distribution des paramètres et les caractéristiques de la distribution de Zipf
  2. Conception de Méthode Ingénieuse : Common act² combine ingénieusement l'élagage du vocabulaire et l'élagage FFN
  3. Expériences Complètes : Évaluation systématique couvrant plusieurs familles de modèles, échelles et tâches
  4. Valeur Pratique Élevée : Préserve la compatibilité architecturale, facile à déployer

Insuffisances

  1. Degré d'Innovation Limité : L'élagage du vocabulaire et l'élagage FFN sont des techniques existantes, la contribution principale réside dans leur combinaison
  2. Analyse Théorique Insuffisante : Manque d'explication théorique approfondie sur pourquoi cette combinaison est efficace
  3. Accélération d'Inférence Limitée : Sur les indicateurs de performance clés (débit), ne surpasse pas les méthodes d'élagage en profondeur

Impact

  1. Contribution Académique : Offre une nouvelle perspective pour l'élagage des LLM, particulièrement l'approche d'adaptation à l'échelle
  2. Valeur Pratique : Méthode simple et efficace, facile à implémenter et déployer
  3. Reproductibilité : Les auteurs s'engagent à publier le code, favorisant la promotion de la méthode

Scénarios d'Application

  1. Déploiement sur Appareils Périphériques : Compression de modèles dans les environnements à mémoire limitée
  2. Déploiement Multi-Échelle : Scénarios nécessitant de supporter simultanément des petits et grands modèles
  3. Élagage Rapide : Applications nécessitant une compression de modèle en peu de temps

Références

L'article cite de nombreux travaux connexes, incluant principalement :

  • Méthodes de Quantification : GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
  • Élagage en Profondeur : Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
  • Élagage en Largeur : SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
  • Traitement du Vocabulaire : Travaux connexes d'élagage du vocabulaire multilingue et spécifique au domaine

Évaluation Globale : Cet article est techniquement solide et pratiquement utile. Bien que relativement limité en innovation théorique, il contribue à travers une combinaison ingénieuse de méthodes et une validation expérimentale complète, offrant une solution efficace et facile à déployer pour l'élagage des LLM. En particulier, ses avantages en matière d'élagage des petits modèles de langage et de compatibilité architecturale lui confèrent de bonnes perspectives d'application.