2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff
Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
academic

TRIM : Réaliser une Parcimonie Extrême par Élagage Itératif Métrique Ciblé au Niveau des Lignes

Informations Fondamentales

  • ID de l'article : 2505.16743
  • Titre : TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
  • Auteurs : Florentin Beck (Université de Tübingen), William Rudman (Université du Texas à Austin), Carsten Eickhoff (Université de Tübingen)
  • Classification : cs.CL cs.AI cs.LG
  • Date de publication : 11 octobre 2025 (arXiv v2)
  • Lien de l'article : https://arxiv.org/abs/2505.16743
  • Lien du code : https://github.com/flobk/TRIM

Résumé

Les grands modèles de langage (LLMs) présentent des défis computationnels et de mémoire considérables en raison de leur vaste échelle paramétrique, rendant l'élagage des modèles essentiel pour leur déploiement efficace. Les méthodes d'élagage unilatéral existantes appliquent généralement des contraintes de parcimonie uniformes entre les couches ou au sein des couches, avec des performances insuffisantes à des taux de parcimonie élevés. Cet article propose TRIM (Targeted Row-wise Iterative Metric-driven pruning), une nouvelle approche appliquant des taux de parcimonie différenciés à chaque dimension de sortie (ligne) au sein de chaque couche. TRIM emploie un processus d'ajustement itératif guidé par des métriques de qualité pour optimiser l'allocation de parcimonie au niveau des dimensions, en se concentrant sur la réduction de la variance de la qualité préservée entre les sorties pour conserver les informations critiques. TRIM s'intègre de manière transparente aux stratégies d'élagage au niveau des couches existantes. Les évaluations de perplexité et de tâches sans exemple sur plusieurs familles de LLMs (Qwen2.5, LLaMA-2 et OPT) et niveaux de parcimonie démontrent que TRIM atteint des résultats à l'état de l'art et améliore la stabilité. Par exemple, à 80% de parcimonie, TRIM réduit la perplexité de Qwen2.5-14B de 48% et celle d'OPT-13B de plus de 90% par rapport aux méthodes de base.

Contexte de Recherche et Motivation

Définition du Problème

Avec la croissance exponentielle de l'échelle paramétrique des grands modèles de langage, le déploiement des modèles fait face à des défis sérieux de ressources mémoire et computationnelles. Bien que la croissance paramétrique apporte des améliorations de performance et des capacités émergentes, elle rend l'inférence difficile dans les environnements aux ressources limitées.

Limitations des Méthodes Existantes

  1. Contraintes de parcimonie uniformes : Les méthodes d'élagage unilatéral existantes (telles que Wanda, OWL, AlphaPruning) appliquent généralement le même taux de parcimonie à toutes les couches ou à toutes les dimensions de sortie au sein des couches
  2. Dégradation drastique des performances à haute parcimonie : À une parcimonie extrême (>70%), les stratégies uniformes entraînent une détérioration significative des performances
  3. Négligence de l'hétérogénéité dimensionnelle : Il existe des différences significatives dans la sensibilité à l'élagage et l'importance de différentes dimensions de sortie

Motivation de la Recherche

L'article observe que les LLMs possèdent des caractéristiques uniques de poids et d'activation, telles que des caractéristiques aberrantes proéminentes et des distributions d'activation hautement asymétriques. Ces caractéristiques indiquent que différentes dimensions de sortie au sein des couches présentent une sensibilité d'élagage différente, nécessitant donc une stratégie d'allocation de parcimonie plus granulaire.

Contributions Fondamentales

  1. Allocation de parcimonie au niveau des dimensions pour la première fois : Propose le premier algorithme calculant des taux de parcimonie différenciés pour chaque dimension de sortie au sein de chaque couche
  2. Performance SOTA à parcimonie extrême : À 80% de parcimonie, réduit significativement la perplexité par rapport aux méthodes existantes (Qwen2.5-14B réduit de 48%, OPT-13B réduit de plus de 90%)
  3. Analyse empirique approfondie : Révèle l'hétérogénéité des dimensions de sortie en termes de sensibilité à l'élagage et d'importance pour les tâches en aval
  4. Conception plug-and-play : TRIM peut s'intégrer à tout algorithme d'élagage basé sur les scores d'importance, offrant une bonne universalité

Détails de la Méthode

Définition de la Tâche

Étant donné une matrice de poids W ∈ ℝ^(D×N), où D est le nombre de dimensions de sortie et N le nombre de dimensions d'entrée, l'objectif est de déterminer le taux de parcimonie optimal Si pour chaque dimension de sortie Wi,: de manière à maximiser la qualité globale de la couche tout en satisfaisant la contrainte de taux de parcimonie moyen.

Algorithme Principal : TRIM

Vecteur de Parcimonie au Niveau des Dimensions

TRIM définit le vecteur de parcimonie au niveau des dimensions S = S₁, S₂, ..., S_D, où Sᵢ ∈ 0,1 spécifie le taux de parcimonie cible pour la i-ème dimension de sortie. La contrainte est :

1/D * Σ(i=1 à D) Sᵢ = T

où T est le taux de parcimonie cible de la couche.

Algorithme d'Ajustement Itératif

Algorithme 1 : Ajustement Itératif de la Parcimonie au Niveau des Dimensions

  1. Initialisation : Calcul de la sortie non élaguée Y ← WX, initialisation de Sᵢ = T (distribution uniforme)
  2. Optimisation itérative (K itérations) :
    • Élagage selon S actuel pour obtenir W_pruned
    • Calcul de la sortie élaguée Ŷ ← W_pruned X
    • Évaluation de la qualité globale qₖ ← Q_metric(Y, Ŷ)
    • Mise à jour de la meilleure configuration (si qₖ > q_best)
    • Calcul de la qualité de chaque dimension cᵢ ← Q_metric_Dimwise(Yᵢ,:, Ŷᵢ,:)
    • Normalisation des scores de qualité dans la plage 0,1
    • Ajustement des taux de parcimonie basé sur le taux d'apprentissage α : δᵢ ← αc'ᵢ
    • Recentrage pour maintenir la contrainte moyenne : Sᵢ ← δᵢ - (1/D)Σδⱼ + T
  3. Retour : Allocation de parcimonie optimale S_best

Métriques de Qualité

  • Qualité au niveau des couches : Utilise la similarité cosinus pour évaluer la qualité d'élagage de la couche entière
  • Qualité au niveau des dimensions : Calcule la similarité cosinus pour chaque dimension de sortie, guidant l'ajustement des taux de parcimonie

Points d'Innovation Technique

  1. Taux d'apprentissage adaptatif : Supporte les taux d'apprentissage positifs et négatifs, les taux positifs réduisant la variance de qualité, les taux négatifs s'appliquant aux couches avec des valeurs aberrantes concentrées
  2. Minimisation de la variance de qualité : Améliore les performances globales en réduisant la variance de la dégradation de qualité entre dimensions
  3. Conception de compatibilité : Peut s'intégrer aux règles de notation existantes (Wanda, Magnitude, SparseGPT, GBLM)

Configuration Expérimentale

Ensembles de Données

  • Modèles : Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
  • Données d'évaluation : Ensemble de validation WikiText (perplexité), C4 et Pile (vérification de généralisation)
  • Tâches en aval : BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA

Métriques d'Évaluation

  • Perplexité : Évalue la capacité de modélisation du langage sur l'ensemble de validation WikiText
  • Précision sans exemple : Performance moyenne sur 7 tâches en aval

Méthodes de Comparaison

  • Méthodes de base : OWL, AlphaPruning (basées sur Wanda)
  • Études d'ablation : Impact de différentes métriques de qualité, paramètres de taux d'apprentissage, nombre d'itérations

Détails d'Implémentation

  • Échantillons d'étalonnage : Sélectionnés aléatoirement à partir de l'ensemble de données C4, longueur de séquence 2048
  • Limite de parcimonie : Maximum 95% par dimension pour éviter le surapprentissage
  • Hyperparamètres : K=10 itérations, taux d'apprentissage α déterminé par recherche en grille

Résultats Expérimentaux

Résultats Principaux

Performance de Perplexité (80% de Parcimonie)

ModèleLigne de base OWLOWL+TRIMAmélioration
Qwen2.5-14B348.48180.67-48%
OPT-13B6461.43324.14-95%
LLaMA-2-13B225.04154.83-31%

Performance des Tâches sans Exemple

TRIM réalise des améliorations de performance sur tous les modèles testés et niveaux de parcimonie, avec une amélioration moyenne de 0.46-0.65 points de pourcentage à 80% de parcimonie.

Expériences d'Ablation

Comparaison des Métriques de Qualité

  • Qualité au niveau des couches : La similarité cosinus montre les performances les plus stables
  • Qualité au niveau des dimensions : La similarité cosinus est plus fiable que MSE et PSNR

Généralisation sur Différents Indices d'Élagage

TRIM montre des améliorations sur Magnitude, SparseGPT, GBLM et autres règles de notation différentes, validant l'universalité de la méthode.

Découvertes Clés

Observation 1 : Hétérogénéité Dimensionnelle

L'analyse par coefficient de Gini révèle des différences significatives dans la concentration des scores d'importance entre différentes dimensions de sortie, entraînant une sensibilité d'élagage différente.

Observation 2 : Dégradation de Qualité Non-Linéaire

Avec l'augmentation du taux de parcimonie, la dégradation de qualité montre une tendance accélérée, rendant l'allocation affinée encore plus importante.

Observation 3 : Différences d'Importance Dimensionnelle

Les expériences montrent des différences énormes dans l'impact de la suppression complète d'une seule dimension :

  • Dimension avec norme L2 minimale : augmentation de perplexité de seulement 0.16
  • Dimension avec norme L2 maximale : augmentation de perplexité jusqu'à 273.10

Travaux Connexes

Classification des Méthodes d'Élagage

  1. Méthodes basées sur le gradient : SNIP, GraSP, SynFlow, etc., nécessitant des informations de gradient et un réentraînement
  2. Méthodes d'élagage unilatéral : SparseGPT, Wanda, etc., sans réentraînement mais performances limitées
  3. Méthodes adaptatives au niveau des couches : OWL, AlphaPruning, etc., allouant différents taux de parcimonie à différentes couches

Positionnement de TRIM

TRIM est la première méthode effectuant l'allocation de parcimonie au niveau des dimensions au sein des couches, comblant le vide des méthodes existantes en matière de contrôle granulaire.

Conclusion et Discussion

Conclusions Principales

  1. Nécessité de l'allocation de parcimonie au niveau des dimensions : À parcimonie extrême, le contrôle granulaire est crucial pour maintenir les performances du modèle
  2. Efficacité de la minimisation de la variance de qualité : L'équilibrage de la dégradation de qualité entre dimensions améliore significativement les performances globales
  3. Universalité de la méthode : TRIM peut s'intégrer à plusieurs algorithmes d'élagage existants, offrant une bonne extensibilité

Limitations

  1. Complexité de la sélection du taux d'apprentissage : Les couches avec des valeurs aberrantes concentrées nécessitent un taux d'apprentissage négatif, augmentant la complexité du réglage des hyperparamètres
  2. Parcimonie non-structurée : La méthode actuelle ne supporte pas directement les motifs de parcimonie structurée tels que n:m
  3. Surcharge computationnelle : Le processus itératif augmente le temps d'exécution d'environ 8%

Directions Futures

  1. Support de la parcimonie structurée : Étendre TRIM pour supporter les motifs de parcimonie adaptés au matériel
  2. Sélection automatique du taux d'apprentissage : Développer des mécanismes adaptatifs réduisant les besoins de réglage des hyperparamètres
  3. Analyse théorique : Établir un cadre théorique pour l'importance dimensionnelle et la sensibilité à l'élagage

Évaluation Approfondie

Avantages

  1. Innovation forte : Première proposition d'allocation de parcimonie au niveau des dimensions, approche novatrice
  2. Expérimentation complète : Validation de l'efficacité de la méthode sur plusieurs familles de modèles et tâches
  3. Support théorique : Analyse approfondie révélant les raisons fondamentales de l'efficacité de la méthode
  4. Valeur pratique élevée : La conception plug-and-play facilite l'intégration aux systèmes existants

Insuffisances

  1. Complexité de la méthode : Augmente la complexité algorithmique et les hyperparamètres par rapport aux méthodes de base
  2. Adaptabilité matérielle : La parcimonie non-structurée limite les effets d'accélération sur le matériel spécialisé
  3. Analyse théorique insuffisante : Manque de garanties théoriques pour l'allocation de parcimonie optimale

Impact

  1. Contribution académique : Fournit une nouvelle direction de recherche pour le domaine de l'élagage des LLMs
  2. Valeur pratique : Importance significative pour le déploiement de grands modèles dans les environnements aux ressources limitées
  3. Reproductibilité : Fourniture de code open-source facilitant les recherches ultérieures

Scénarios d'Application

  1. Besoins de parcimonie extrême : Particulièrement adapté aux scénarios nécessitant >70% de parcimonie
  2. Environnements aux ressources limitées : Appareils périphériques, terminaux mobiles et autres scénarios aux ressources computationnelles limitées
  3. Fins de recherche : Fournit de nouveaux repères et perspectives pour la recherche en algorithmes d'élagage

Références

L'article cite des travaux importants du domaine de l'élagage, notamment :

  • Méthodes d'élagage classiques : Le Cun et al. (1989), Han et al. (2015)
  • Élagage moderne des LLMs : Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
  • Méthodes adaptatives au niveau des couches : Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning

Résumé : TRIM améliore significativement les performances de l'élagage des LLMs à parcimonie extrême en introduisant l'allocation de parcimonie au niveau des dimensions. Cette méthode possède une valeur théorique et pratique importante, ouvrant une nouvelle direction de recherche pour le domaine de la compression des grands modèles. Malgré certaines limitations, son innovation et son efficacité en font une contribution importante au domaine.