2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin

Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.

academic

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Informazioni Fondamentali

ID Articolo: 2509.06836
Titolo: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Autori: Eugene Kwek, Wenpeng Yin (Penn State University)
Classificazione: cs.CL cs.AI cs.LG
Stato di Pubblicazione: Preprint in revisione
Link Articolo: https://arxiv.org/abs/2509.06836v3

Riassunto

Questo articolo propone il metodo di potatura COMPACT per affrontare i problemi di efficienza dei modelli linguistici di grandi dimensioni (LLM) in termini di memoria, latenza e costi di servizio. Il metodo combina la potatura del vocabolario e la potatura dei canali FFN ponderata in base ai token comuni, realizzando la compressione dei parametri mantenendo l'architettura standard del transformer. L'efficacia del metodo è stata verificata sperimentalmente su famiglie di modelli come Qwen, LLaMA e Gemma (parametri da 0,5B a 70B).

Contesto di Ricerca e Motivazione

Definizione del Problema

Sebbene i modelli linguistici di grandi dimensioni dimostrino prestazioni eccellenti su vari compiti NLP, l'enorme numero di parametri (da miliardi a centinaia di miliardi) comporta elevati costi di distribuzione, limitando l'applicazione su dispositivi edge, applicazioni interattive e inferenza su larga scala.

Limitazioni dei Metodi Esistenti

Potatura della Larghezza (Width Pruning): Rimuove dimensioni nascoste o canali, ma compromette l'architettura standard del transformer, richiedendo codice di inferenza personalizzato
Potatura della Profondità (Depth Pruning): Rimuove interi blocchi transformer, preservando l'architettura ma causando un calo drastico delle prestazioni
Scarsa Adattabilità di Scala: I metodi esistenti sono efficaci su modelli grandi, ma mostrano prestazioni scadenti su modelli linguistici piccoli (SLM)
Trascuratezza delle Caratteristiche Linguistiche: Non considera le differenze di importanza tra i token, trattando tutti i token in modo uguale

Motivazione della Ricerca

Attraverso l'analisi, gli autori hanno scoperto che:

Esistono differenze significative nella distribuzione dei parametri tra modelli di diverse scale: i parametri del vocabolario occupano una proporzione maggiore nei modelli piccoli, mentre i parametri FFN dominano nei modelli grandi
Il linguaggio naturale segue la distribuzione di Zipf, con token rari che hanno frequenza estremamente bassa e contribuiscono limitatamente alle prestazioni downstream

Contributi Principali

Analisi Sistematica: Prima analisi sistematica delle leggi di distribuzione dei parametri di embedding, FFN e attention in LLM di diverse scale
Metodo COMPACT: Propone un nuovo framework che combina potatura del vocabolario e potatura FFN ponderata in base ai token comuni
Compatibilità Architetturale: Mantiene l'architettura standard del transformer, compatibile con i framework di inferenza esistenti
Adattabilità di Scala: Realizza prestazioni SOTA su molteplici famiglie di modelli da 0,5B a 70B parametri

Spiegazione Dettagliata del Metodo

Analisi della Distribuzione dei Parametri

Gli autori analizzano innanzitutto la distribuzione dei parametri nei moderni transformer decoder-only:

Parametri del Vocabolario: $N_{vocab} = 2VD$ (strati di embedding e LM head)
Parametri FFN: $N_{FFN} = 3LDI$ (L strati, dimensione intermedia I)
Parametri di Attention: $N_{attention} = 2LD^2(1 + \frac{1}{H})$ (H è il rapporto del numero di teste)

Con l'aumento della scala del modello, $N_{FFN}$ e $N_{attention}$ crescono secondo $O(LD^2)$ , mentre $N_{vocab}$ cresce solo secondo $O(D)$ , quindi nei modelli piccoli i parametri del vocabolario occupano una proporzione maggiore.

Architettura COMPACT

1. Potatura del Vocabolario (Vocabulary Pruning)

Principio: Basato sulla caratteristica che il tokenizer BPE segue la distribuzione di Zipf, rimuove i $V-V'$ token più rari
Implementazione: Elimina direttamente le righe corrispondenti delle matrici di embedding e LM head, nonché le regole di merge nel tokenizer
Vantaggi: Non richiede dati di calibrazione, computazionalmente efficiente

2. Potatura FFN Ponderata in Base ai Token Comuni

Il metodo tradizionale act² calcola l'importanza del canale come: $I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k$

Il metodo common act² proposto da COMPACT: $I_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{altrimenti} \end{cases}$

dove $S$ è l'insieme dei token rari da potare.

Flusso dell'Algoritmo

Algoritmo 1 COMPACT
Input: Modello M, dataset di calibrazione D, dimensione vocabolario target V', dimensione intermedia target I'
1. Identificare l'insieme S dei V-V' token più rari
2. Eseguire propagazione in avanti sul dataset D, raccogliere attivazioni al quadrato
3. Per ogni canale k, calcolare l'importanza Ik utilizzando common act²
4. Per ogni strato: potare i I-I' canali meno importanti
5. Potare i parametri del vocabolario: rimuovere le ultime V-V' righe dalle matrici di embedding e LM head
6. Restituire il modello potato M'

Punti di Innovazione Tecnica

Strategia di Doppia Potatura: Combina potatura del vocabolario e potatura FFN, adattandosi alle caratteristiche di distribuzione dei parametri di modelli di diverse scale
Ponderazione dei Token Comuni: Durante la potatura FFN, considera solo i token che rimangono validi dopo la potatura, evitando di essere fuorviati dai token rari
Preservazione dell'Architettura: Potura solo la dimensione del vocabolario e la dimensione intermedia, mantenendo la struttura standard del transformer
Adattabilità di Scala: Attraverso l'aggiustamento dei due iperparametri $V'$ e $I'$ si adatta a esigenze di diverse scale

Configurazione Sperimentale

Modelli Valutati

Modelli Linguistici Piccoli: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
Modelli Linguistici Grandi: LLaMA 3.1-8B, LLaMA 3.1-70B

Dataset e Compiti

Dati di Calibrazione: 256 campioni dal dataset C4
Compiti di Valutazione: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

Metodi di Confronto

Potatura della Profondità: ShortGPT, LaCo
Potatura della Larghezza: SliceGPT, 2SSP, FLAP

Metriche di Valutazione

Rapporto di potatura dei parametri, accuratezza media, tasso di mantenimento delle prestazioni relative
Tempo di potatura, throughput di inferenza, utilizzo della memoria GPU

Risultati Sperimentali

Risultati Principali

Prestazioni dei Modelli Linguistici Piccoli

Su Qwen 2.5-0.5B con rapporto di potatura del 35%:

COMPACT: Accuratezza media 35,3% (70,4% prestazioni relative)
Miglior baseline: 31,4% (62,5% prestazioni relative)

Su LLaMA 3.2-1B con rapporto di potatura del 35%:

COMPACT: Accuratezza media 36,9% (76,4% prestazioni relative)
Miglior baseline: 33,6% (69,6% prestazioni relative)

Prestazioni dei Modelli Linguistici Grandi

Su LLaMA 3.1-70B con rapporto di potatura del 35%:

COMPACT: Accuratezza media 63,7% (80,2% prestazioni relative)
2SSP: 62,8% (79,1% prestazioni relative)

Analisi dell'Efficienza

Confronto del Tempo di Potatura (LLaMA 3.1-8B, 35% potatura)

COMPACT: 0:32
2SSP: 1:26
SliceGPT: 10:48

Efficienza di Inferenza (LLaMA 3.1-8B, 35% potatura)

Utilizzo della Memoria: COMPACT riduce del 36% (migliore), ShortGPT/LaCo riducono del 25%
Aumento del Throughput: COMPACT aumenta del 37%, ShortGPT/LaCo aumentano del 57%

Esperimenti di Ablazione

Efficacia di Common act²

Su Qwen 2.5-0.5B con 35% potatura:

Common act²: 70,4% prestazioni relative
act² standard: 69,2% prestazioni relative
Metodo |act|: 67,6% prestazioni relative

Analisi del Compromesso Vocabolario-FFN

Con rapporto di potatura fisso del 37%, diverse combinazioni di $V'$ e $I'$ :

Potatura pura FFN (V'=151936): 63,0% prestazioni relative
Combinazione ottimale (V'=49536): 70,4% prestazioni relative

Scoperte Importanti

Degradazione Graduale: COMPACT mostra un decadimento graduale delle prestazioni, mentre i metodi di potatura della profondità presentano salti improvvisi di prestazioni
Indipendenza dall'Architettura: COMPACT può essere applicato direttamente a nuove architetture come Gemma 3, mentre altri metodi richiedono modifiche specifiche dell'architettura
Impatto Limitato dei Token Rari: La riduzione del 67% del vocabolario influisce solo sul 4% della ritokenizzazione del testo

Lavori Correlati

Potatura della Profondità

Metodi Rappresentativi: Shortened LLaMA, SLEB, LLM-Streamline
Vantaggi: Mantiene l'architettura standard, accelerazione di inferenza evidente
Svantaggi: La rimozione a grana grossa causa un calo drastico delle prestazioni

Potatura della Larghezza

Metodi Rappresentativi: LLM-Pruner, SliceGPT, FLAP, 2SSP
Vantaggi: Controllo a grana fine, decadimento delle prestazioni relativamente graduale
Svantaggi: Compromette l'architettura standard, richiede codice di inferenza personalizzato

Potatura del Vocabolario

Lavori Esistenti: Principalmente focalizzati sul ridimensionamento del vocabolario per lingue/domini specifici
Contributo di questo Articolo: Potatura del vocabolario per LLM generici, formando un framework completo combinato con la potatura FFN

Conclusioni e Discussione

Conclusioni Principali

COMPACT realizza prestazioni di potatura SOTA su molteplici famiglie di modelli e scale
Il metodo mantiene l'architettura standard del transformer, con buona compatibilità di distribuzione
La strategia di doppia potatura adatta efficacemente le caratteristiche di distribuzione dei parametri di modelli di diverse scale

Limitazioni

Aumento del Throughput Limitato: Rispetto ai metodi di potatura della profondità, rimane un divario nell'aumento del throughput di inferenza
Adattabilità Dominio della Potatura del Vocabolario: In domini specifici potrebbe essere necessario conservare più vocabolario specializzato
Ottimizzazione degli Iperparametri: Richiede di trovare le combinazioni ottimali di $V'$ e $I'$ per diversi rapporti di potatura

Direzioni Future

Gli autori propongono la necessità di ridurre ulteriormente il divario nel throughput tra la potatura della larghezza e la potatura della profondità.

Valutazione Approfondita

Punti di Forza

Fondamenti Teorici Solidi: Guidato dall'analisi della distribuzione dei parametri e dalle caratteristiche della distribuzione di Zipf
Design del Metodo Ingegnoso: Common act² combina ingegnosamente la potatura del vocabolario e la potatura FFN
Esperimenti Completi: Valutazione sistematica che copre molteplici famiglie di modelli, scale e compiti
Alto Valore Pratico: Mantiene la compatibilità architetturale, facile da distribuire

Insufficienze

Grado di Innovazione Limitato: Sia la potatura del vocabolario che la potatura FFN sono tecniche esistenti, il contributo principale risiede nella loro combinazione
Analisi Teorica Non Sufficientemente Approfondita: Manca una spiegazione teorica più profonda del perché questa combinazione sia efficace
Accelerazione di Inferenza Limitata: Su metriche di prestazione chiave (throughput) non è all'altezza dei metodi di potatura della profondità

Impatto

Contributo Accademico: Fornisce una nuova prospettiva per la potatura di LLM, in particolare l'idea dell'adattabilità di scala
Valore Pratico: Il metodo è semplice ed efficace, facile da implementare e distribuire
Riproducibilità: Gli autori si impegnano a rendere open source il codice, favorendo la diffusione del metodo

Scenari Applicabili

Distribuzione Edge: Compressione di modelli in ambienti con memoria limitata
Distribuzione Multi-scala: Scenari che richiedono il supporto simultaneo di modelli piccoli e grandi
Potatura Rapida: Applicazioni che richiedono il completamento della compressione del modello in breve tempo

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati, principalmente includenti:

Metodi di Quantizzazione: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
Potatura della Profondità: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
Potatura della Larghezza: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
Elaborazione del Vocabolario: Lavori correlati sulla potatura del vocabolario multilingue e specifico del dominio

Valutazione Complessiva: Questo è un articolo tecnicamente solido e praticamente utile. Sebbene relativamente limitato in termini di innovazione teorica, attraverso la combinazione ingegnosa di metodi e la verifica sperimentale completa, contribuisce una soluzione efficace e facile da distribuire al campo della potatura di LLM. In particolare, i vantaggi nella potatura di modelli linguistici piccoli e nella compatibilità architetturale gli conferiscono buone prospettive di applicazione.