2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin

Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.

academic

COMPACT : Élagage de Modèle Optimisé par Token Commun sur les Canaux et les Tokens

Informations Fondamentales

ID de l'article : 2509.06836
Titre : COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Auteurs : Eugene Kwek, Wenpeng Yin (Université d'État de Pennsylvanie)
Classification : cs.CL cs.AI cs.LG
Statut de publication : Préimpression en cours d'examen
Lien de l'article : https://arxiv.org/abs/2509.06836v3

Résumé

Cet article propose la méthode d'élagage COMPACT pour résoudre les problèmes d'efficacité des grands modèles de langage (LLM) en termes de mémoire, de latence et de coûts de service. La méthode combine l'élagage du vocabulaire et l'élagage des canaux FFN pondérés par les tokens communs, réalisant une compression des paramètres tout en maintenant l'architecture transformer standard. L'efficacité de la méthode a été validée expérimentalement sur les familles de modèles Qwen, LLaMA et Gemma (0,5B-70B paramètres).

Contexte de Recherche et Motivation

Définition du Problème

Bien que les grands modèles de langage démontrent des performances exceptionnelles sur diverses tâches de traitement du langage naturel, leur nombre massif de paramètres (des milliards à des centaines de milliards) entraîne des coûts de déploiement élevés, limitant leur application sur les appareils périphériques, les applications interactives et l'inférence à grande échelle.

Limitations des Méthodes Existantes

Élagage en Largeur (Width Pruning) : Supprime les dimensions cachées ou les canaux, mais rompt l'architecture transformer standard, nécessitant un code d'inférence personnalisé
Élagage en Profondeur (Depth Pruning) : Supprime des blocs transformer entiers, préservant l'architecture mais entraînant une dégradation drastique des performances
Mauvaise Adaptabilité à l'Échelle : Les méthodes existantes sont efficaces sur les grands modèles mais performent mal sur les petits modèles de langage (SLM)
Négligence des Caractéristiques Linguistiques : Ne tient pas compte des différences d'importance des tokens, traitant tous les tokens de manière égale

Motivation de la Recherche

Les auteurs ont découvert par analyse que :

Les distributions de paramètres diffèrent considérablement selon la taille du modèle : les paramètres de vocabulaire représentent une proportion plus importante dans les petits modèles, tandis que les paramètres FFN dominent dans les grands modèles
Le langage naturel suit une distribution de Zipf, où les tokens rares apparaissent avec une fréquence extrêmement basse et contribuent peu aux performances en aval

Contributions Fondamentales

Analyse Systématique : Première analyse systématique des lois de distribution des paramètres d'embedding, FFN et attention dans les LLM de différentes tailles
Méthode COMPACT : Propose un nouveau cadre combinant l'élagage du vocabulaire et l'élagage FFN pondéré par les tokens communs
Compatibilité Architecturale : Maintient l'architecture transformer standard, compatible avec les cadres d'inférence existants
Adaptation à l'Échelle : Réalise des performances de pointe sur plusieurs familles de modèles de 0,5B à 70B paramètres

Détails de la Méthode

Analyse de la Distribution des Paramètres

Les auteurs analysent d'abord la distribution des paramètres du transformer décodeur moderne :

Paramètres de Vocabulaire : $N_{vocab} = 2VD$ (couches d'embedding et LM head)
Paramètres FFN : $N_{FFN} = 3LDI$ (L couches, dimension intermédiaire I)
Paramètres d'Attention : $N_{attention} = 2LD^2(1 + \frac{1}{H})$ (H est le ratio du nombre de têtes)

À mesure que l'échelle du modèle augmente, $N_{FFN}$ et $N_{attention}$ croissent selon $O(LD^2)$ , tandis que $N_{vocab}$ ne croît que selon $O(D)$ , ce qui explique pourquoi les paramètres de vocabulaire représentent une proportion plus importante dans les petits modèles.

Architecture COMPACT

1. Élagage du Vocabulaire (Vocabulary Pruning)

Principe : Basé sur la caractéristique que le tokeniseur BPE suit une distribution de Zipf, supprime les $V-V'$ tokens les plus rares
Implémentation : Supprime directement les lignes correspondantes des matrices d'embedding et LM head, ainsi que les règles de fusion du tokeniseur
Avantages : Ne nécessite pas de données d'étalonnage, calcul efficace

2. Élagage FFN Pondéré par les Tokens Communs

La méthode act² traditionnelle calcule l'importance du canal comme : $I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k$

La méthode common act² proposée par COMPACT : $I_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{sinon} \end{cases}$

où $S$ est l'ensemble des tokens rares à élaguer.

Flux Algorithmique

Algorithme 1 COMPACT
Entrée : Modèle M, ensemble de données d'étalonnage D, taille de vocabulaire cible V', dimension intermédiaire cible I'
1. Identifier l'ensemble S des V-V' tokens les plus rares
2. Exécuter la propagation avant sur l'ensemble de données D, collecter les activations au carré
3. Pour chaque canal k, calculer l'importance Ik en utilisant common act²
4. Pour chaque couche : élaguer les I-I' canaux les moins importants
5. Élaguer les paramètres de vocabulaire : supprimer les dernières V-V' lignes des matrices d'embedding et LM head
6. Retourner le modèle élagué M'

Points d'Innovation Technique

Stratégie d'Élagage Double : Combine l'élagage du vocabulaire et l'élagage FFN, adaptée aux caractéristiques de distribution des paramètres de modèles de différentes tailles
Pondération par Tokens Communs : L'élagage FFN ne considère que les tokens qui restent valides après élagage, évitant d'être induit en erreur par les tokens rares
Préservation de l'Architecture : Élague uniquement la taille du vocabulaire et la dimension intermédiaire, maintenant la structure transformer standard
Adaptation à l'Échelle : S'adapte aux besoins de différentes tailles en ajustant les deux hyperparamètres $V'$ et $I'$

Configuration Expérimentale

Modèles Évalués

Petits Modèles de Langage : Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
Grands Modèles de Langage : LLaMA 3.1-8B, LLaMA 3.1-70B

Ensembles de Données et Tâches

Données d'Étalonnage : 256 échantillons de l'ensemble de données C4
Tâches d'Évaluation : MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

Méthodes de Comparaison

Élagage en Profondeur : ShortGPT, LaCo
Élagage en Largeur : SliceGPT, 2SSP, FLAP

Indicateurs d'Évaluation

Ratio d'élagage des paramètres, précision moyenne, taux de conservation des performances relatives
Temps d'élagage, débit d'inférence, utilisation de la mémoire GPU

Résultats Expérimentaux

Résultats Principaux

Performances des Petits Modèles de Langage

Sur Qwen 2.5-0.5B avec un ratio d'élagage de 35% :

COMPACT : Précision moyenne de 35,3% (70,4% de performance relative)
Meilleure baseline : 31,4% (62,5% de performance relative)

Sur LLaMA 3.2-1B avec un ratio d'élagage de 35% :

COMPACT : Précision moyenne de 36,9% (76,4% de performance relative)
Meilleure baseline : 33,6% (69,6% de performance relative)

Performances des Grands Modèles de Langage

Sur LLaMA 3.1-70B avec un ratio d'élagage de 35% :

COMPACT : Précision moyenne de 63,7% (80,2% de performance relative)
2SSP : 62,8% (79,1% de performance relative)

Analyse d'Efficacité

Comparaison des Temps d'Élagage (LLaMA 3.1-8B, 35% d'élagage)

COMPACT : 0:32
2SSP : 1:26
SliceGPT : 10:48

Efficacité d'Inférence (LLaMA 3.1-8B, 35% d'élagage)

Utilisation de la Mémoire : COMPACT réduit de 36% (optimal), ShortGPT/LaCo réduisent de 25%
Amélioration du Débit : COMPACT améliore de 37%, ShortGPT/LaCo améliorent de 57%

Études d'Ablation

Efficacité de Common act²

Sur Qwen 2.5-0.5B avec 35% d'élagage :

Common act² : 70,4% de performance relative
act² standard : 69,2% de performance relative
Méthode |act| : 67,6% de performance relative

Analyse du Compromis Vocabulaire-FFN

Avec un ratio d'élagage fixe de 37%, différentes combinaisons de $V'$ et $I'$ :

Élagage pur FFN (V'=151936) : 63,0% de performance relative
Combinaison optimale (V'=49536) : 70,4% de performance relative

Découvertes Importantes

Dégradation Lisse : COMPACT présente une dégradation lisse des performances, tandis que les méthodes d'élagage en profondeur présentent des sauts de performance soudains
Indépendance Architecturale : COMPACT peut être appliqué directement à de nouvelles architectures comme Gemma 3, tandis que d'autres méthodes nécessitent des modifications spécifiques à l'architecture
Impact Limité des Tokens Rares : Une réduction de 67% du vocabulaire n'affecte que 4% de la retokenisation du texte

Travaux Connexes

Élagage en Profondeur

Méthodes Représentatives : Shortened LLaMA, SLEB, LLM-Streamline
Avantages : Préserve l'architecture standard, accélération d'inférence notable
Inconvénients : La suppression à grain grossier entraîne une dégradation drastique des performances

Élagage en Largeur

Méthodes Représentatives : LLM-Pruner, SliceGPT, FLAP, 2SSP
Avantages : Contrôle à grain fin, dégradation des performances relativement lisse
Inconvénients : Rompt l'architecture standard, nécessite un code d'inférence personnalisé

Élagage du Vocabulaire

Travaux Existants : Principalement axés sur l'élagage du vocabulaire pour des langues/domaines spécifiques
Contribution de cet Article : Élagage du vocabulaire pour LLM généraliste, formant un cadre complet en combinaison avec l'élagage FFN

Conclusion et Discussion

Conclusions Principales

COMPACT réalise des performances d'élagage de pointe sur plusieurs familles de modèles et échelles
La méthode préserve l'architecture transformer standard, offrant une bonne compatibilité de déploiement
La stratégie d'élagage double s'adapte efficacement aux caractéristiques de distribution des paramètres de modèles de différentes tailles

Limitations

Amélioration Limitée du Débit : Comparée aux méthodes d'élagage en profondeur, l'amélioration du débit d'inférence reste limitée
Adaptabilité Domaine de l'Élagage du Vocabulaire : Dans des domaines spécifiques, il peut être nécessaire de conserver davantage de vocabulaire spécialisé
Ajustement des Hyperparamètres : Nécessite de trouver les combinaisons optimales de $V'$ et $I'$ pour différents ratios d'élagage

Directions Futures

Les auteurs proposent de réduire davantage l'écart entre l'élagage en largeur et l'élagage en profondeur en termes de débit.

Évaluation Approfondie

Points Forts

Fondations Théoriques Solides : Guidée par l'analyse de la distribution des paramètres et les caractéristiques de la distribution de Zipf
Conception de Méthode Ingénieuse : Common act² combine ingénieusement l'élagage du vocabulaire et l'élagage FFN
Expériences Complètes : Évaluation systématique couvrant plusieurs familles de modèles, échelles et tâches
Valeur Pratique Élevée : Préserve la compatibilité architecturale, facile à déployer

Insuffisances

Degré d'Innovation Limité : L'élagage du vocabulaire et l'élagage FFN sont des techniques existantes, la contribution principale réside dans leur combinaison
Analyse Théorique Insuffisante : Manque d'explication théorique approfondie sur pourquoi cette combinaison est efficace
Accélération d'Inférence Limitée : Sur les indicateurs de performance clés (débit), ne surpasse pas les méthodes d'élagage en profondeur

Impact

Contribution Académique : Offre une nouvelle perspective pour l'élagage des LLM, particulièrement l'approche d'adaptation à l'échelle
Valeur Pratique : Méthode simple et efficace, facile à implémenter et déployer
Reproductibilité : Les auteurs s'engagent à publier le code, favorisant la promotion de la méthode

Scénarios d'Application

Déploiement sur Appareils Périphériques : Compression de modèles dans les environnements à mémoire limitée
Déploiement Multi-Échelle : Scénarios nécessitant de supporter simultanément des petits et grands modèles
Élagage Rapide : Applications nécessitant une compression de modèle en peu de temps

Références

L'article cite de nombreux travaux connexes, incluant principalement :

Méthodes de Quantification : GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
Élagage en Profondeur : Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
Élagage en Largeur : SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
Traitement du Vocabulaire : Travaux connexes d'élagage du vocabulaire multilingue et spécifique au domaine

Évaluation Globale : Cet article est techniquement solide et pratiquement utile. Bien que relativement limité en innovation théorique, il contribue à travers une combinaison ingénieuse de méthodes et une validation expérimentale complète, offrant une solution efficace et facile à déployer pour l'élagage des LLM. En particulier, ses avantages en matière d'élagage des petits modèles de langage et de compatibilité architecturale lui confèrent de bonnes perspectives d'application.