2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff

Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM

academic

TRIM : Réaliser une Parcimonie Extrême par Élagage Itératif Métrique Ciblé au Niveau des Lignes

Informations Fondamentales

ID de l'article : 2505.16743
Titre : TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
Auteurs : Florentin Beck (Université de Tübingen), William Rudman (Université du Texas à Austin), Carsten Eickhoff (Université de Tübingen)
Classification : cs.CL cs.AI cs.LG
Date de publication : 11 octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2505.16743
Lien du code : https://github.com/flobk/TRIM

Résumé

Les grands modèles de langage (LLMs) présentent des défis computationnels et de mémoire considérables en raison de leur vaste échelle paramétrique, rendant l'élagage des modèles essentiel pour leur déploiement efficace. Les méthodes d'élagage unilatéral existantes appliquent généralement des contraintes de parcimonie uniformes entre les couches ou au sein des couches, avec des performances insuffisantes à des taux de parcimonie élevés. Cet article propose TRIM (Targeted Row-wise Iterative Metric-driven pruning), une nouvelle approche appliquant des taux de parcimonie différenciés à chaque dimension de sortie (ligne) au sein de chaque couche. TRIM emploie un processus d'ajustement itératif guidé par des métriques de qualité pour optimiser l'allocation de parcimonie au niveau des dimensions, en se concentrant sur la réduction de la variance de la qualité préservée entre les sorties pour conserver les informations critiques. TRIM s'intègre de manière transparente aux stratégies d'élagage au niveau des couches existantes. Les évaluations de perplexité et de tâches sans exemple sur plusieurs familles de LLMs (Qwen2.5, LLaMA-2 et OPT) et niveaux de parcimonie démontrent que TRIM atteint des résultats à l'état de l'art et améliore la stabilité. Par exemple, à 80% de parcimonie, TRIM réduit la perplexité de Qwen2.5-14B de 48% et celle d'OPT-13B de plus de 90% par rapport aux méthodes de base.

Contexte de Recherche et Motivation

Définition du Problème

Avec la croissance exponentielle de l'échelle paramétrique des grands modèles de langage, le déploiement des modèles fait face à des défis sérieux de ressources mémoire et computationnelles. Bien que la croissance paramétrique apporte des améliorations de performance et des capacités émergentes, elle rend l'inférence difficile dans les environnements aux ressources limitées.

Limitations des Méthodes Existantes

Contraintes de parcimonie uniformes : Les méthodes d'élagage unilatéral existantes (telles que Wanda, OWL, AlphaPruning) appliquent généralement le même taux de parcimonie à toutes les couches ou à toutes les dimensions de sortie au sein des couches
Dégradation drastique des performances à haute parcimonie : À une parcimonie extrême (>70%), les stratégies uniformes entraînent une détérioration significative des performances
Négligence de l'hétérogénéité dimensionnelle : Il existe des différences significatives dans la sensibilité à l'élagage et l'importance de différentes dimensions de sortie

Motivation de la Recherche

L'article observe que les LLMs possèdent des caractéristiques uniques de poids et d'activation, telles que des caractéristiques aberrantes proéminentes et des distributions d'activation hautement asymétriques. Ces caractéristiques indiquent que différentes dimensions de sortie au sein des couches présentent une sensibilité d'élagage différente, nécessitant donc une stratégie d'allocation de parcimonie plus granulaire.

Contributions Fondamentales

Allocation de parcimonie au niveau des dimensions pour la première fois : Propose le premier algorithme calculant des taux de parcimonie différenciés pour chaque dimension de sortie au sein de chaque couche
Performance SOTA à parcimonie extrême : À 80% de parcimonie, réduit significativement la perplexité par rapport aux méthodes existantes (Qwen2.5-14B réduit de 48%, OPT-13B réduit de plus de 90%)
Analyse empirique approfondie : Révèle l'hétérogénéité des dimensions de sortie en termes de sensibilité à l'élagage et d'importance pour les tâches en aval
Conception plug-and-play : TRIM peut s'intégrer à tout algorithme d'élagage basé sur les scores d'importance, offrant une bonne universalité

Détails de la Méthode

Définition de la Tâche

Étant donné une matrice de poids W ∈ ℝ^(D×N), où D est le nombre de dimensions de sortie et N le nombre de dimensions d'entrée, l'objectif est de déterminer le taux de parcimonie optimal Si pour chaque dimension de sortie Wi,: de manière à maximiser la qualité globale de la couche tout en satisfaisant la contrainte de taux de parcimonie moyen.

Algorithme Principal : TRIM

Vecteur de Parcimonie au Niveau des Dimensions

TRIM définit le vecteur de parcimonie au niveau des dimensions S = S₁, S₂, ..., S_D, où Sᵢ ∈ 0,1 spécifie le taux de parcimonie cible pour la i-ème dimension de sortie. La contrainte est :

1/D * Σ(i=1 à D) Sᵢ = T

où T est le taux de parcimonie cible de la couche.

Algorithme d'Ajustement Itératif

Algorithme 1 : Ajustement Itératif de la Parcimonie au Niveau des Dimensions

Initialisation : Calcul de la sortie non élaguée Y ← WX, initialisation de Sᵢ = T (distribution uniforme)
Optimisation itérative (K itérations) :
- Élagage selon S actuel pour obtenir W_pruned
- Calcul de la sortie élaguée Ŷ ← W_pruned X
- Évaluation de la qualité globale qₖ ← Q_metric(Y, Ŷ)
- Mise à jour de la meilleure configuration (si qₖ > q_best)
- Calcul de la qualité de chaque dimension cᵢ ← Q_metric_Dimwise(Yᵢ,:, Ŷᵢ,:)
- Normalisation des scores de qualité dans la plage 0,1
- Ajustement des taux de parcimonie basé sur le taux d'apprentissage α : δᵢ ← αc'ᵢ
- Recentrage pour maintenir la contrainte moyenne : Sᵢ ← δᵢ - (1/D)Σδⱼ + T
Retour : Allocation de parcimonie optimale S_best

Métriques de Qualité

Qualité au niveau des couches : Utilise la similarité cosinus pour évaluer la qualité d'élagage de la couche entière
Qualité au niveau des dimensions : Calcule la similarité cosinus pour chaque dimension de sortie, guidant l'ajustement des taux de parcimonie

Points d'Innovation Technique

Taux d'apprentissage adaptatif : Supporte les taux d'apprentissage positifs et négatifs, les taux positifs réduisant la variance de qualité, les taux négatifs s'appliquant aux couches avec des valeurs aberrantes concentrées
Minimisation de la variance de qualité : Améliore les performances globales en réduisant la variance de la dégradation de qualité entre dimensions
Conception de compatibilité : Peut s'intégrer aux règles de notation existantes (Wanda, Magnitude, SparseGPT, GBLM)

Configuration Expérimentale

Ensembles de Données

Modèles : Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
Données d'évaluation : Ensemble de validation WikiText (perplexité), C4 et Pile (vérification de généralisation)
Tâches en aval : BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA

Métriques d'Évaluation

Perplexité : Évalue la capacité de modélisation du langage sur l'ensemble de validation WikiText
Précision sans exemple : Performance moyenne sur 7 tâches en aval

Méthodes de Comparaison

Méthodes de base : OWL, AlphaPruning (basées sur Wanda)
Études d'ablation : Impact de différentes métriques de qualité, paramètres de taux d'apprentissage, nombre d'itérations

Détails d'Implémentation

Échantillons d'étalonnage : Sélectionnés aléatoirement à partir de l'ensemble de données C4, longueur de séquence 2048
Limite de parcimonie : Maximum 95% par dimension pour éviter le surapprentissage
Hyperparamètres : K=10 itérations, taux d'apprentissage α déterminé par recherche en grille

Résultats Expérimentaux

Résultats Principaux

Performance de Perplexité (80% de Parcimonie)

Modèle	Ligne de base OWL	OWL+TRIM	Amélioration
Qwen2.5-14B	348.48	180.67	-48%
OPT-13B	6461.43	324.14	-95%
LLaMA-2-13B	225.04	154.83	-31%

Performance des Tâches sans Exemple

TRIM réalise des améliorations de performance sur tous les modèles testés et niveaux de parcimonie, avec une amélioration moyenne de 0.46-0.65 points de pourcentage à 80% de parcimonie.

Expériences d'Ablation

Comparaison des Métriques de Qualité

Qualité au niveau des couches : La similarité cosinus montre les performances les plus stables
Qualité au niveau des dimensions : La similarité cosinus est plus fiable que MSE et PSNR

Généralisation sur Différents Indices d'Élagage

TRIM montre des améliorations sur Magnitude, SparseGPT, GBLM et autres règles de notation différentes, validant l'universalité de la méthode.

Découvertes Clés

Observation 1 : Hétérogénéité Dimensionnelle

L'analyse par coefficient de Gini révèle des différences significatives dans la concentration des scores d'importance entre différentes dimensions de sortie, entraînant une sensibilité d'élagage différente.

Observation 2 : Dégradation de Qualité Non-Linéaire

Avec l'augmentation du taux de parcimonie, la dégradation de qualité montre une tendance accélérée, rendant l'allocation affinée encore plus importante.

Observation 3 : Différences d'Importance Dimensionnelle

Les expériences montrent des différences énormes dans l'impact de la suppression complète d'une seule dimension :

Dimension avec norme L2 minimale : augmentation de perplexité de seulement 0.16
Dimension avec norme L2 maximale : augmentation de perplexité jusqu'à 273.10

Travaux Connexes

Classification des Méthodes d'Élagage

Méthodes basées sur le gradient : SNIP, GraSP, SynFlow, etc., nécessitant des informations de gradient et un réentraînement
Méthodes d'élagage unilatéral : SparseGPT, Wanda, etc., sans réentraînement mais performances limitées
Méthodes adaptatives au niveau des couches : OWL, AlphaPruning, etc., allouant différents taux de parcimonie à différentes couches

Positionnement de TRIM

TRIM est la première méthode effectuant l'allocation de parcimonie au niveau des dimensions au sein des couches, comblant le vide des méthodes existantes en matière de contrôle granulaire.

Conclusion et Discussion

Conclusions Principales

Nécessité de l'allocation de parcimonie au niveau des dimensions : À parcimonie extrême, le contrôle granulaire est crucial pour maintenir les performances du modèle
Efficacité de la minimisation de la variance de qualité : L'équilibrage de la dégradation de qualité entre dimensions améliore significativement les performances globales
Universalité de la méthode : TRIM peut s'intégrer à plusieurs algorithmes d'élagage existants, offrant une bonne extensibilité

Limitations

Complexité de la sélection du taux d'apprentissage : Les couches avec des valeurs aberrantes concentrées nécessitent un taux d'apprentissage négatif, augmentant la complexité du réglage des hyperparamètres
Parcimonie non-structurée : La méthode actuelle ne supporte pas directement les motifs de parcimonie structurée tels que n:m
Surcharge computationnelle : Le processus itératif augmente le temps d'exécution d'environ 8%

Directions Futures

Support de la parcimonie structurée : Étendre TRIM pour supporter les motifs de parcimonie adaptés au matériel
Sélection automatique du taux d'apprentissage : Développer des mécanismes adaptatifs réduisant les besoins de réglage des hyperparamètres
Analyse théorique : Établir un cadre théorique pour l'importance dimensionnelle et la sensibilité à l'élagage

Évaluation Approfondie

Avantages

Innovation forte : Première proposition d'allocation de parcimonie au niveau des dimensions, approche novatrice
Expérimentation complète : Validation de l'efficacité de la méthode sur plusieurs familles de modèles et tâches
Support théorique : Analyse approfondie révélant les raisons fondamentales de l'efficacité de la méthode
Valeur pratique élevée : La conception plug-and-play facilite l'intégration aux systèmes existants

Insuffisances

Complexité de la méthode : Augmente la complexité algorithmique et les hyperparamètres par rapport aux méthodes de base
Adaptabilité matérielle : La parcimonie non-structurée limite les effets d'accélération sur le matériel spécialisé
Analyse théorique insuffisante : Manque de garanties théoriques pour l'allocation de parcimonie optimale

Impact

Contribution académique : Fournit une nouvelle direction de recherche pour le domaine de l'élagage des LLMs
Valeur pratique : Importance significative pour le déploiement de grands modèles dans les environnements aux ressources limitées
Reproductibilité : Fourniture de code open-source facilitant les recherches ultérieures

Scénarios d'Application

Besoins de parcimonie extrême : Particulièrement adapté aux scénarios nécessitant >70% de parcimonie
Environnements aux ressources limitées : Appareils périphériques, terminaux mobiles et autres scénarios aux ressources computationnelles limitées
Fins de recherche : Fournit de nouveaux repères et perspectives pour la recherche en algorithmes d'élagage

Références

L'article cite des travaux importants du domaine de l'élagage, notamment :

Méthodes d'élagage classiques : Le Cun et al. (1989), Han et al. (2015)
Élagage moderne des LLMs : Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
Méthodes adaptatives au niveau des couches : Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning

Résumé : TRIM améliore significativement les performances de l'élagage des LLMs à parcimonie extrême en introduisant l'allocation de parcimonie au niveau des dimensions. Cette méthode possède une valeur théorique et pratique importante, ouvrant une nouvelle direction de recherche pour le domaine de la compression des grands modèles. Malgré certaines limitations, son innovation et son efficacité en font une contribution importante au domaine.