2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff
Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
academic

TRIM: Raggiungimento di Estrema Sparsità con Potatura Iterativa Metrica-Guidata Mirata per Righe

Informazioni Fondamentali

  • ID Articolo: 2505.16743
  • Titolo: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
  • Autori: Florentin Beck (University of Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (University of Tübingen)
  • Classificazione: cs.CL cs.AI cs.LG
  • Data di Pubblicazione: 11 ottobre 2025 (arXiv v2)
  • Link Articolo: https://arxiv.org/abs/2505.16743
  • Link Codice: https://github.com/flobk/TRIM

Riassunto

I modelli linguistici di grandi dimensioni (LLM) presentano sfide computazionali e di memoria significative dovute alla loro vasta scala parametrica, rendendo la potatura del modello essenziale per il loro dispiegamento efficiente. I metodi di potatura una tantum esistenti applicano tipicamente vincoli di sparsità uniformi tra i livelli o all'interno dei livelli, mostrando prestazioni scadenti ad alti tassi di sparsità. Questo articolo propone TRIM (Targeted Row-wise Iterative Metric-driven pruning), un nuovo approccio che applica tassi di sparsità differenziati a ciascuna dimensione di output (riga) all'interno di ogni livello. TRIM impiega un processo di regolazione iterativa guidato da metriche di qualità per ottimizzare l'allocazione della sparsità a livello di dimensione, concentrandosi sulla riduzione della varianza nella preservazione della qualità tra gli output per mantenere le informazioni critiche. TRIM si integra perfettamente con le strategie di potatura a livello di strato esistenti. La valutazione della perplessità e dei compiti zero-shot su più famiglie di LLM (Qwen2.5, LLaMA-2 e OPT) e livelli di sparsità dimostra che TRIM raggiunge risultati all'avanguardia e migliora la stabilità. Ad esempio, con sparsità dell'80%, TRIM riduce la perplessità di Qwen2.5-14B del 48% e quella di OPT-13B di oltre il 90% rispetto ai metodi di base.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con la crescita esponenziale della scala parametrica dei modelli linguistici di grandi dimensioni, il dispiegamento dei modelli affronta gravi sfide di memoria e risorse computazionali. Sebbene la crescita parametrica porti miglioramenti nelle prestazioni e capacità emergenti, rende difficile l'inferenza in ambienti con risorse limitate.

Limitazioni dei Metodi Esistenti

  1. Vincoli di Sparsità Uniformi: I metodi di potatura una tantum esistenti (come Wanda, OWL, AlphaPruning) applicano tipicamente lo stesso tasso di sparsità a tutti i livelli o a tutte le dimensioni di output all'interno di un livello
  2. Degrado Acuto delle Prestazioni ad Alta Sparsità: A sparsità estrema (>70%), le strategie uniformi causano un deterioramento significativo delle prestazioni
  3. Trascuratezza dell'Eterogeneità Dimensionale: Diverse dimensioni di output mostrano sensibilità e importanza significativamente diverse rispetto alla potatura

Motivazione della Ricerca

L'articolo osserva che gli LLM possiedono caratteristiche uniche di pesi e attivazioni, come caratteristiche outlier prominenti e distribuzioni di attivazione altamente inclinate. Queste caratteristiche suggeriscono che diverse dimensioni di output all'interno di un livello hanno sensibilità di potatura differenti, richiedendo quindi una strategia di allocazione della sparsità più granulare.

Contributi Fondamentali

  1. Allocazione di Sparsità a Livello di Dimensione Pioneristico: Propone il primo algoritmo che calcola tassi di sparsità differenziati per ciascuna dimensione di output all'interno di ogni livello
  2. Prestazioni SOTA ad Estrema Sparsità: Con sparsità dell'80%, riduce significativamente la perplessità rispetto ai metodi esistenti (Qwen2.5-14B ridotto del 48%, OPT-13B ridotto di oltre il 90%)
  3. Analisi Empirica Approfondita: Rivela l'eterogeneità delle dimensioni di output nella sensibilità di potatura e nell'importanza dei compiti a valle
  4. Design Plug-and-Play: TRIM può integrarsi con qualsiasi algoritmo di potatura basato su punteggi di importanza, con buona generalità

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato una matrice di pesi W ∈ R^(D×N), dove D è il numero di dimensioni di output e N è il numero di dimensioni di input, l'obiettivo è determinare il tasso di sparsità ottimale Si per ciascuna dimensione di output Wi,: in modo da massimizzare la qualità complessiva del livello soddisfacendo il vincolo del tasso di sparsità medio.

Algoritmo Principale: TRIM

Vettore di Sparsità a Livello di Dimensione

TRIM definisce il vettore di sparsità a livello di dimensione S = S1, S2, ..., SD, dove Si ∈ 0,1 specifica il tasso di sparsità target per la i-esima dimensione di output. Il vincolo è:

1/D * Σ(i=1 to D) Si = T

dove T è il tasso di sparsità target del livello.

Algoritmo di Regolazione Iterativa

Algoritmo 1: Regolazione Iterativa della Sparsità per Dimensione

  1. Inizializzazione: Calcola l'output non potato Y ← WX, inizializza Si = T (distribuzione uniforme)
  2. Ottimizzazione Iterativa (K iterazioni):
    • Pota secondo S corrente per ottenere Wpruned
    • Calcola l'output potato Ŷ ← WprunedX
    • Valuta la qualità complessiva qk ← Qmetric(Y, Ŷ)
    • Aggiorna la configurazione migliore (se qk > qbest)
    • Calcola la qualità per dimensione ci ← QmetricDimwise(Yi,:, Ŷi,:)
    • Normalizza i punteggi di qualità nell'intervallo 0,1
    • Regola i tassi di sparsità in base al tasso di apprendimento α: δi ← αc'i
    • Ricentralizza per mantenere il vincolo medio: Si ← δi - (1/D)Σδj + T
  3. Ritorna: L'allocazione di sparsità ottimale Sbest

Metriche di Qualità

  • Qualità a Livello di Strato: Utilizza la somiglianza del coseno per valutare la qualità della potatura dell'intero strato
  • Qualità a Livello di Dimensione: Calcola la somiglianza del coseno per ciascuna dimensione di output, guidando l'aggiustamento del tasso di sparsità

Punti di Innovazione Tecnica

  1. Tasso di Apprendimento Adattivo: Supporta tassi di apprendimento positivi e negativi; il tasso positivo riduce la varianza di qualità, il tasso negativo è applicabile a livelli con outlier concentrati
  2. Minimizzazione della Varianza di Qualità: Migliora le prestazioni complessive riducendo la varianza del degrado di qualità tra dimensioni
  3. Design di Compatibilità: Può integrarsi con regole di punteggio esistenti (Wanda, Magnitude, SparseGPT, GBLM)

Configurazione Sperimentale

Dataset

  • Modelli: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
  • Dati di Valutazione: Set di validazione WikiText (perplessità), C4 e Pile (verifica della generalizzazione)
  • Compiti a Valle: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA

Metriche di Valutazione

  • Perplessità: Valuta la capacità di modellazione del linguaggio sul set di validazione WikiText
  • Accuratezza Zero-Shot: Prestazioni medie su 7 compiti a valle

Metodi di Confronto

  • Metodi di Base: OWL, AlphaPruning (basati su Wanda)
  • Studi di Ablazione: Effetti di diverse metriche di qualità, impostazioni del tasso di apprendimento, numero di iterazioni

Dettagli di Implementazione

  • Campioni di Calibrazione: Selezionati casualmente dal dataset C4, lunghezza della sequenza 2048
  • Limite di Sparsità: Massimo 95% per dimensione singola per prevenire l'overfitting
  • Iperparametri: K=10 iterazioni, tasso di apprendimento α determinato mediante ricerca a griglia

Risultati Sperimentali

Risultati Principali

Prestazioni di Perplessità (Sparsità 80%)

ModelloBase OWLOWL+TRIMMiglioramento
Qwen2.5-14B348.48180.67-48%
OPT-13B6461.43324.14-95%
LLaMA-2-13B225.04154.83-31%

Prestazioni dei Compiti Zero-Shot

TRIM raggiunge miglioramenti delle prestazioni su tutti i modelli testati e livelli di sparsità, con miglioramenti medi di 0.46-0.65 punti percentuali con sparsità dell'80%.

Esperimenti di Ablazione

Confronto delle Metriche di Qualità

  • Qualità a Livello di Strato: La somiglianza del coseno mostra le prestazioni più stabili
  • Qualità a Livello di Dimensione: La somiglianza del coseno è più affidabile rispetto a MSE e PSNR

Generalizzazione su Diversi Indici di Potatura

TRIM mostra miglioramenti su diverse regole di punteggio come Magnitude, SparseGPT, GBLM, verificando la generalità del metodo.

Scoperte Chiave

Osservazione 1: Eterogeneità Dimensionale

L'analisi del coefficiente di Gini rivela differenze significative nella concentrazione dei punteggi di importanza tra diverse dimensioni di output, causando sensibilità di potatura diverse.

Osservazione 2: Degrado di Qualità Non Lineare

Con l'aumento della sparsità, il degrado di qualità mostra una tendenza accelerata, rendendo l'allocazione granulare ancora più importante.

Osservazione 3: Differenze di Importanza Dimensionale

Gli esperimenti mostrano differenze enormi nell'impatto della rimozione completa di singole dimensioni:

  • Dimensione con norma L2 minima: perplessità aumenta solo di 0.16
  • Dimensione con norma L2 massima: perplessità aumenta drasticamente a 273.10

Lavori Correlati

Classificazione dei Metodi di Potatura

  1. Metodi Basati su Gradiente: SNIP, GraSP, SynFlow, ecc., richiedono informazioni di gradiente e riadattamento
  2. Metodi di Potatura Una Tantum: SparseGPT, Wanda, ecc., senza riadattamento ma con prestazioni limitate
  3. Metodi Adattivi a Livello di Strato: OWL, AlphaPruning, ecc., allocano tassi di sparsità differenti a livelli diversi

Posizionamento di TRIM

TRIM è il primo metodo per l'allocazione della sparsità a livello di dimensione all'interno di un livello, colmando il vuoto nei metodi esistenti nel controllo granulare.

Conclusioni e Discussione

Conclusioni Principali

  1. Necessità dell'Allocazione di Sparsità a Livello di Dimensione: Ad estrema sparsità, il controllo granulare è cruciale per mantenere le prestazioni del modello
  2. Efficacia della Minimizzazione della Varianza di Qualità: Bilanciare il degrado di qualità tra dimensioni migliora significativamente le prestazioni complessive
  3. Generalità del Metodo: TRIM può integrarsi con molteplici algoritmi di potatura esistenti, mostrando buona estensibilità

Limitazioni

  1. Complessità della Selezione del Tasso di Apprendimento: I livelli con outlier concentrati richiedono tassi di apprendimento negativi, aumentando la complessità dell'ottimizzazione degli iperparametri
  2. Sparsità Non Strutturata: Il metodo attuale non supporta direttamente modelli di sparsità strutturata come n:m
  3. Costo Computazionale: Il processo iterativo aumenta il tempo di esecuzione di circa l'8%

Direzioni Future

  1. Supporto della Sparsità Strutturata: Estendere TRIM per supportare modelli di sparsità hardware-friendly
  2. Selezione Automatica del Tasso di Apprendimento: Sviluppare meccanismi adattivi per ridurre la necessità di ottimizzazione degli iperparametri
  3. Analisi Teorica: Stabilire un framework teorico per l'importanza dimensionale e la sensibilità di potatura

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo a proporre l'allocazione di sparsità a livello di dimensione, approccio originale
  2. Esperimenti Completi: Verifica l'efficacia del metodo su più famiglie di modelli e compiti
  3. Supporto Teorico: L'analisi approfondita rivela le ragioni fondamentali dell'efficacia del metodo
  4. Alto Valore Pratico: Il design plug-and-play lo rende facile da integrare nei sistemi esistenti

Insufficienze

  1. Complessità del Metodo: Aumenta la complessità algoritmica e gli iperparametri rispetto ai metodi di base
  2. Adattabilità Hardware: La sparsità non strutturata limita gli effetti di accelerazione su hardware specializzato
  3. Analisi Teorica Insufficiente: Manca di garanzie teoriche per l'allocazione di sparsità ottimale

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca nel campo della potatura degli LLM
  2. Valore Pratico: Ha un significato importante per il dispiegamento di modelli di grandi dimensioni in ambienti con risorse limitate
  3. Riproducibilità: Fornisce codice open-source, facilitando la ricerca successiva

Scenari Applicabili

  1. Esigenze di Sparsità Estrema: Particolarmente adatto a scenari che richiedono sparsità >70%
  2. Ambienti con Risorse Limitate: Dispositivi edge, dispositivi mobili e altri scenari con risorse computazionali limitate
  3. Scopi di Ricerca: Fornisce nuovi benchmark e idee per la ricerca sugli algoritmi di potatura

Riferimenti Bibliografici

L'articolo cita lavori importanti nel campo della potatura, inclusi:

  • Metodi di potatura classici: Le Cun et al. (1989), Han et al. (2015)
  • Potatura moderna degli LLM: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
  • Metodi adattivi a livello di strato: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning

Sintesi: TRIM migliora significativamente le prestazioni della potatura degli LLM ad estrema sparsità introducendo l'allocazione di sparsità a livello di dimensione. Questo metodo ha un importante valore teorico e pratico, aprendo una nuova direzione di ricerca nel campo della compressione dei modelli di grandi dimensioni. Nonostante alcune limitazioni, la sua innovatività ed efficacia lo rendono un contributo importante in questo campo.