2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Informazioni Fondamentali

  • ID Articolo: 2509.06836
  • Titolo: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
  • Autori: Eugene Kwek, Wenpeng Yin (Penn State University)
  • Classificazione: cs.CL cs.AI cs.LG
  • Stato di Pubblicazione: Preprint in revisione
  • Link Articolo: https://arxiv.org/abs/2509.06836v3

Riassunto

Questo articolo propone il metodo di potatura COMPACT per affrontare i problemi di efficienza dei modelli linguistici di grandi dimensioni (LLM) in termini di memoria, latenza e costi di servizio. Il metodo combina la potatura del vocabolario e la potatura dei canali FFN ponderata in base ai token comuni, realizzando la compressione dei parametri mantenendo l'architettura standard del transformer. L'efficacia del metodo è stata verificata sperimentalmente su famiglie di modelli come Qwen, LLaMA e Gemma (parametri da 0,5B a 70B).

Contesto di Ricerca e Motivazione

Definizione del Problema

Sebbene i modelli linguistici di grandi dimensioni dimostrino prestazioni eccellenti su vari compiti NLP, l'enorme numero di parametri (da miliardi a centinaia di miliardi) comporta elevati costi di distribuzione, limitando l'applicazione su dispositivi edge, applicazioni interattive e inferenza su larga scala.

Limitazioni dei Metodi Esistenti

  1. Potatura della Larghezza (Width Pruning): Rimuove dimensioni nascoste o canali, ma compromette l'architettura standard del transformer, richiedendo codice di inferenza personalizzato
  2. Potatura della Profondità (Depth Pruning): Rimuove interi blocchi transformer, preservando l'architettura ma causando un calo drastico delle prestazioni
  3. Scarsa Adattabilità di Scala: I metodi esistenti sono efficaci su modelli grandi, ma mostrano prestazioni scadenti su modelli linguistici piccoli (SLM)
  4. Trascuratezza delle Caratteristiche Linguistiche: Non considera le differenze di importanza tra i token, trattando tutti i token in modo uguale

Motivazione della Ricerca

Attraverso l'analisi, gli autori hanno scoperto che:

  • Esistono differenze significative nella distribuzione dei parametri tra modelli di diverse scale: i parametri del vocabolario occupano una proporzione maggiore nei modelli piccoli, mentre i parametri FFN dominano nei modelli grandi
  • Il linguaggio naturale segue la distribuzione di Zipf, con token rari che hanno frequenza estremamente bassa e contribuiscono limitatamente alle prestazioni downstream

Contributi Principali

  1. Analisi Sistematica: Prima analisi sistematica delle leggi di distribuzione dei parametri di embedding, FFN e attention in LLM di diverse scale
  2. Metodo COMPACT: Propone un nuovo framework che combina potatura del vocabolario e potatura FFN ponderata in base ai token comuni
  3. Compatibilità Architetturale: Mantiene l'architettura standard del transformer, compatibile con i framework di inferenza esistenti
  4. Adattabilità di Scala: Realizza prestazioni SOTA su molteplici famiglie di modelli da 0,5B a 70B parametri

Spiegazione Dettagliata del Metodo

Analisi della Distribuzione dei Parametri

Gli autori analizzano innanzitutto la distribuzione dei parametri nei moderni transformer decoder-only:

  • Parametri del Vocabolario: Nvocab=2VDN_{vocab} = 2VD (strati di embedding e LM head)
  • Parametri FFN: NFFN=3LDIN_{FFN} = 3LDI (L strati, dimensione intermedia I)
  • Parametri di Attention: Nattention=2LD2(1+1H)N_{attention} = 2LD^2(1 + \frac{1}{H}) (H è il rapporto del numero di teste)

Con l'aumento della scala del modello, NFFNN_{FFN} e NattentionN_{attention} crescono secondo O(LD2)O(LD^2), mentre NvocabN_{vocab} cresce solo secondo O(D)O(D), quindi nei modelli piccoli i parametri del vocabolario occupano una proporzione maggiore.

Architettura COMPACT

1. Potatura del Vocabolario (Vocabulary Pruning)

  • Principio: Basato sulla caratteristica che il tokenizer BPE segue la distribuzione di Zipf, rimuove i VVV-V' token più rari
  • Implementazione: Elimina direttamente le righe corrispondenti delle matrici di embedding e LM head, nonché le regole di merge nel tokenizer
  • Vantaggi: Non richiede dati di calibrazione, computazionalmente efficiente

2. Potatura FFN Ponderata in Base ai Token Comuni

Il metodo tradizionale act² calcola l'importanza del canale come: Ik=i=1N(SiLU(XiWgate)XiWup)k2I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k

Il metodo common act² proposto da COMPACT: Ik=i=1Nwi(SiLU(XiWgate)XiWup)k2,wi={0xiS1altrimentiI_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{altrimenti} \end{cases}

dove SS è l'insieme dei token rari da potare.

Flusso dell'Algoritmo

Algoritmo 1 COMPACT
Input: Modello M, dataset di calibrazione D, dimensione vocabolario target V', dimensione intermedia target I'
1. Identificare l'insieme S dei V-V' token più rari
2. Eseguire propagazione in avanti sul dataset D, raccogliere attivazioni al quadrato
3. Per ogni canale k, calcolare l'importanza Ik utilizzando common act²
4. Per ogni strato: potare i I-I' canali meno importanti
5. Potare i parametri del vocabolario: rimuovere le ultime V-V' righe dalle matrici di embedding e LM head
6. Restituire il modello potato M'

Punti di Innovazione Tecnica

  1. Strategia di Doppia Potatura: Combina potatura del vocabolario e potatura FFN, adattandosi alle caratteristiche di distribuzione dei parametri di modelli di diverse scale
  2. Ponderazione dei Token Comuni: Durante la potatura FFN, considera solo i token che rimangono validi dopo la potatura, evitando di essere fuorviati dai token rari
  3. Preservazione dell'Architettura: Potura solo la dimensione del vocabolario e la dimensione intermedia, mantenendo la struttura standard del transformer
  4. Adattabilità di Scala: Attraverso l'aggiustamento dei due iperparametri VV' e II' si adatta a esigenze di diverse scale

Configurazione Sperimentale

Modelli Valutati

  • Modelli Linguistici Piccoli: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
  • Modelli Linguistici Grandi: LLaMA 3.1-8B, LLaMA 3.1-70B

Dataset e Compiti

  • Dati di Calibrazione: 256 campioni dal dataset C4
  • Compiti di Valutazione: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

Metodi di Confronto

  • Potatura della Profondità: ShortGPT, LaCo
  • Potatura della Larghezza: SliceGPT, 2SSP, FLAP

Metriche di Valutazione

  • Rapporto di potatura dei parametri, accuratezza media, tasso di mantenimento delle prestazioni relative
  • Tempo di potatura, throughput di inferenza, utilizzo della memoria GPU

Risultati Sperimentali

Risultati Principali

Prestazioni dei Modelli Linguistici Piccoli

Su Qwen 2.5-0.5B con rapporto di potatura del 35%:

  • COMPACT: Accuratezza media 35,3% (70,4% prestazioni relative)
  • Miglior baseline: 31,4% (62,5% prestazioni relative)

Su LLaMA 3.2-1B con rapporto di potatura del 35%:

  • COMPACT: Accuratezza media 36,9% (76,4% prestazioni relative)
  • Miglior baseline: 33,6% (69,6% prestazioni relative)

Prestazioni dei Modelli Linguistici Grandi

Su LLaMA 3.1-70B con rapporto di potatura del 35%:

  • COMPACT: Accuratezza media 63,7% (80,2% prestazioni relative)
  • 2SSP: 62,8% (79,1% prestazioni relative)

Analisi dell'Efficienza

Confronto del Tempo di Potatura (LLaMA 3.1-8B, 35% potatura)

  • COMPACT: 0:32
  • 2SSP: 1:26
  • SliceGPT: 10:48

Efficienza di Inferenza (LLaMA 3.1-8B, 35% potatura)

  • Utilizzo della Memoria: COMPACT riduce del 36% (migliore), ShortGPT/LaCo riducono del 25%
  • Aumento del Throughput: COMPACT aumenta del 37%, ShortGPT/LaCo aumentano del 57%

Esperimenti di Ablazione

Efficacia di Common act²

Su Qwen 2.5-0.5B con 35% potatura:

  • Common act²: 70,4% prestazioni relative
  • act² standard: 69,2% prestazioni relative
  • Metodo |act|: 67,6% prestazioni relative

Analisi del Compromesso Vocabolario-FFN

Con rapporto di potatura fisso del 37%, diverse combinazioni di VV' e II':

  • Potatura pura FFN (V'=151936): 63,0% prestazioni relative
  • Combinazione ottimale (V'=49536): 70,4% prestazioni relative

Scoperte Importanti

  1. Degradazione Graduale: COMPACT mostra un decadimento graduale delle prestazioni, mentre i metodi di potatura della profondità presentano salti improvvisi di prestazioni
  2. Indipendenza dall'Architettura: COMPACT può essere applicato direttamente a nuove architetture come Gemma 3, mentre altri metodi richiedono modifiche specifiche dell'architettura
  3. Impatto Limitato dei Token Rari: La riduzione del 67% del vocabolario influisce solo sul 4% della ritokenizzazione del testo

Lavori Correlati

Potatura della Profondità

  • Metodi Rappresentativi: Shortened LLaMA, SLEB, LLM-Streamline
  • Vantaggi: Mantiene l'architettura standard, accelerazione di inferenza evidente
  • Svantaggi: La rimozione a grana grossa causa un calo drastico delle prestazioni

Potatura della Larghezza

  • Metodi Rappresentativi: LLM-Pruner, SliceGPT, FLAP, 2SSP
  • Vantaggi: Controllo a grana fine, decadimento delle prestazioni relativamente graduale
  • Svantaggi: Compromette l'architettura standard, richiede codice di inferenza personalizzato

Potatura del Vocabolario

  • Lavori Esistenti: Principalmente focalizzati sul ridimensionamento del vocabolario per lingue/domini specifici
  • Contributo di questo Articolo: Potatura del vocabolario per LLM generici, formando un framework completo combinato con la potatura FFN

Conclusioni e Discussione

Conclusioni Principali

  1. COMPACT realizza prestazioni di potatura SOTA su molteplici famiglie di modelli e scale
  2. Il metodo mantiene l'architettura standard del transformer, con buona compatibilità di distribuzione
  3. La strategia di doppia potatura adatta efficacemente le caratteristiche di distribuzione dei parametri di modelli di diverse scale

Limitazioni

  1. Aumento del Throughput Limitato: Rispetto ai metodi di potatura della profondità, rimane un divario nell'aumento del throughput di inferenza
  2. Adattabilità Dominio della Potatura del Vocabolario: In domini specifici potrebbe essere necessario conservare più vocabolario specializzato
  3. Ottimizzazione degli Iperparametri: Richiede di trovare le combinazioni ottimali di VV' e II' per diversi rapporti di potatura

Direzioni Future

Gli autori propongono la necessità di ridurre ulteriormente il divario nel throughput tra la potatura della larghezza e la potatura della profondità.

Valutazione Approfondita

Punti di Forza

  1. Fondamenti Teorici Solidi: Guidato dall'analisi della distribuzione dei parametri e dalle caratteristiche della distribuzione di Zipf
  2. Design del Metodo Ingegnoso: Common act² combina ingegnosamente la potatura del vocabolario e la potatura FFN
  3. Esperimenti Completi: Valutazione sistematica che copre molteplici famiglie di modelli, scale e compiti
  4. Alto Valore Pratico: Mantiene la compatibilità architetturale, facile da distribuire

Insufficienze

  1. Grado di Innovazione Limitato: Sia la potatura del vocabolario che la potatura FFN sono tecniche esistenti, il contributo principale risiede nella loro combinazione
  2. Analisi Teorica Non Sufficientemente Approfondita: Manca una spiegazione teorica più profonda del perché questa combinazione sia efficace
  3. Accelerazione di Inferenza Limitata: Su metriche di prestazione chiave (throughput) non è all'altezza dei metodi di potatura della profondità

Impatto

  1. Contributo Accademico: Fornisce una nuova prospettiva per la potatura di LLM, in particolare l'idea dell'adattabilità di scala
  2. Valore Pratico: Il metodo è semplice ed efficace, facile da implementare e distribuire
  3. Riproducibilità: Gli autori si impegnano a rendere open source il codice, favorendo la diffusione del metodo

Scenari Applicabili

  1. Distribuzione Edge: Compressione di modelli in ambienti con memoria limitata
  2. Distribuzione Multi-scala: Scenari che richiedono il supporto simultaneo di modelli piccoli e grandi
  3. Potatura Rapida: Applicazioni che richiedono il completamento della compressione del modello in breve tempo

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati, principalmente includenti:

  • Metodi di Quantizzazione: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
  • Potatura della Profondità: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
  • Potatura della Larghezza: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
  • Elaborazione del Vocabolario: Lavori correlati sulla potatura del vocabolario multilingue e specifico del dominio

Valutazione Complessiva: Questo è un articolo tecnicamente solido e praticamente utile. Sebbene relativamente limitato in termini di innovazione teorica, attraverso la combinazione ingegnosa di metodi e la verifica sperimentale completa, contribuisce una soluzione efficace e facile da distribuire al campo della potatura di LLM. In particolare, i vantaggi nella potatura di modelli linguistici piccoli e nella compatibilità architetturale gli conferiscono buone prospettive di applicazione.