COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic
COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Questo articolo propone il metodo di potatura COMPACT per affrontare i problemi di efficienza dei modelli linguistici di grandi dimensioni (LLM) in termini di memoria, latenza e costi di servizio. Il metodo combina la potatura del vocabolario e la potatura dei canali FFN ponderata in base ai token comuni, realizzando la compressione dei parametri mantenendo l'architettura standard del transformer. L'efficacia del metodo è stata verificata sperimentalmente su famiglie di modelli come Qwen, LLaMA e Gemma (parametri da 0,5B a 70B).
Sebbene i modelli linguistici di grandi dimensioni dimostrino prestazioni eccellenti su vari compiti NLP, l'enorme numero di parametri (da miliardi a centinaia di miliardi) comporta elevati costi di distribuzione, limitando l'applicazione su dispositivi edge, applicazioni interattive e inferenza su larga scala.
Potatura della Larghezza (Width Pruning): Rimuove dimensioni nascoste o canali, ma compromette l'architettura standard del transformer, richiedendo codice di inferenza personalizzato
Potatura della Profondità (Depth Pruning): Rimuove interi blocchi transformer, preservando l'architettura ma causando un calo drastico delle prestazioni
Scarsa Adattabilità di Scala: I metodi esistenti sono efficaci su modelli grandi, ma mostrano prestazioni scadenti su modelli linguistici piccoli (SLM)
Trascuratezza delle Caratteristiche Linguistiche: Non considera le differenze di importanza tra i token, trattando tutti i token in modo uguale
Attraverso l'analisi, gli autori hanno scoperto che:
Esistono differenze significative nella distribuzione dei parametri tra modelli di diverse scale: i parametri del vocabolario occupano una proporzione maggiore nei modelli piccoli, mentre i parametri FFN dominano nei modelli grandi
Il linguaggio naturale segue la distribuzione di Zipf, con token rari che hanno frequenza estremamente bassa e contribuiscono limitatamente alle prestazioni downstream
Parametri di Attention: Nattention=2LD2(1+H1) (H è il rapporto del numero di teste)
Con l'aumento della scala del modello, NFFN e Nattention crescono secondo O(LD2), mentre Nvocab cresce solo secondo O(D), quindi nei modelli piccoli i parametri del vocabolario occupano una proporzione maggiore.
Algoritmo 1 COMPACT
Input: Modello M, dataset di calibrazione D, dimensione vocabolario target V', dimensione intermedia target I'
1. Identificare l'insieme S dei V-V' token più rari
2. Eseguire propagazione in avanti sul dataset D, raccogliere attivazioni al quadrato
3. Per ogni canale k, calcolare l'importanza Ik utilizzando common act²
4. Per ogni strato: potare i I-I' canali meno importanti
5. Potare i parametri del vocabolario: rimuovere le ultime V-V' righe dalle matrici di embedding e LM head
6. Restituire il modello potato M'
Strategia di Doppia Potatura: Combina potatura del vocabolario e potatura FFN, adattandosi alle caratteristiche di distribuzione dei parametri di modelli di diverse scale
Ponderazione dei Token Comuni: Durante la potatura FFN, considera solo i token che rimangono validi dopo la potatura, evitando di essere fuorviati dai token rari
Preservazione dell'Architettura: Potura solo la dimensione del vocabolario e la dimensione intermedia, mantenendo la struttura standard del transformer
Adattabilità di Scala: Attraverso l'aggiustamento dei due iperparametri V′ e I′ si adatta a esigenze di diverse scale
Degradazione Graduale: COMPACT mostra un decadimento graduale delle prestazioni, mentre i metodi di potatura della profondità presentano salti improvvisi di prestazioni
Indipendenza dall'Architettura: COMPACT può essere applicato direttamente a nuove architetture come Gemma 3, mentre altri metodi richiedono modifiche specifiche dell'architettura
Impatto Limitato dei Token Rari: La riduzione del 67% del vocabolario influisce solo sul 4% della ritokenizzazione del testo
Grado di Innovazione Limitato: Sia la potatura del vocabolario che la potatura FFN sono tecniche esistenti, il contributo principale risiede nella loro combinazione
Analisi Teorica Non Sufficientemente Approfondita: Manca una spiegazione teorica più profonda del perché questa combinazione sia efficace
Accelerazione di Inferenza Limitata: Su metriche di prestazione chiave (throughput) non è all'altezza dei metodi di potatura della profondità
L'articolo cita numerosi lavori correlati, principalmente includenti:
Metodi di Quantizzazione: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
Potatura della Profondità: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
Potatura della Larghezza: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
Elaborazione del Vocabolario: Lavori correlati sulla potatura del vocabolario multilingue e specifico del dominio
Valutazione Complessiva: Questo è un articolo tecnicamente solido e praticamente utile. Sebbene relativamente limitato in termini di innovazione teorica, attraverso la combinazione ingegnosa di metodi e la verifica sperimentale completa, contribuisce una soluzione efficace e facile da distribuire al campo della potatura di LLM. In particolare, i vantaggi nella potatura di modelli linguistici piccoli e nella compatibilità architetturale gli conferiscono buone prospettive di applicazione.