COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic
COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Dieses Paper präsentiert die COMPACT-Pruning-Methode zur Effizienzoptimierung großer Sprachmodelle (LLMs) hinsichtlich Speicher, Latenz und Servicekosten. Die Methode kombiniert Vokabular-Pruning mit gewichtungsbasiertem FFN-Kanal-Pruning unter Verwendung häufiger Token und erreicht dabei Parameterkompression bei Beibehaltung der Standard-Transformer-Architektur. Die Wirksamkeit der Methode wurde auf Modellfamilien wie Qwen, LLaMA und Gemma (0,5B–70B Parameter) experimentell validiert.
Obwohl große Sprachmodelle bei verschiedenen NLP-Aufgaben hervorragende Leistungen zeigen, führt ihre enorme Parameterzahl (Milliarden bis Hunderte von Milliarden) zu hohen Bereitstellungskosten und schränkt ihre Anwendung auf Edge-Geräten, interaktiven Anwendungen und großflächigen Inferenzen ein.
Width Pruning (Breitenpruning): Entfernt verborgene Dimensionen oder Kanäle, zerstört aber die Standard-Transformer-Architektur und erfordert benutzerdefinierten Inferenzcode
Depth Pruning (Tiefenpruning): Entfernt ganze Transformer-Blöcke; erhält zwar die Architektur, führt aber zu drastischen Leistungseinbußen
Schlechte Skalierbarkeit: Bestehende Methoden funktionieren bei großen Modellen gut, zeigen aber schlechte Leistung bei kleinen Sprachmodellen (SLMs)
Vernachlässigung sprachlicher Eigenschaften: Berücksichtigt nicht die unterschiedliche Wichtigkeit von Token und behandelt alle Token gleich
Signifikante Unterschiede in der Parameterverteilung zwischen Modellen verschiedener Größen: In kleinen Modellen machen Vokabularparameter einen größeren Anteil aus, in großen Modellen dominieren FFN-Parameter
Natürliche Sprache folgt einer Zipf-Verteilung, wobei seltene Token extrem selten vorkommen und nur begrenzt zur nachgelagerten Leistung beitragen
Attention-Parameter: Nattention=2LD2(1+H1) (H als Kopfzahlverhältnis)
Mit zunehmender Modellgröße wachsen NFFN und Nattention mit O(LD2), während Nvocab nur mit O(D) wächst. Daher ist der Anteil der Vokabularparameter in kleinen Modellen größer.
Algorithmus 1 COMPACT
Eingabe: Modell M, Kalibrierungsdatensatz D, Ziel-Vokabulargröße V', Ziel-Mitteldimension I'
1. Identifiziere die Menge S der seltensten V-V' Token
2. Führe Vorwärtsdurchlauf auf Datensatz D durch, sammle quadrierte Aktivierungen
3. Berechne für jeden Kanal k die Wichtigkeit Ik mit common act²
4. Für jede Schicht: Pruning von I-I' am wenigsten wichtigen Kanälen
5. Pruning von Vokabularparametern: Entferne die letzten V-V' Zeilen aus Embedding- und LM-Head-Matrizen
6. Gebe das geprunte Modell M' zurück
Sanfte Leistungsverschlechterung: COMPACT zeigt sanfte Leistungsabnahme, während Tiefenpruning-Methoden plötzliche Leistungssprünge aufweisen
Architekturunabhängigkeit: COMPACT kann direkt auf neue Architekturen wie Gemma 3 angewendet werden, während andere Methoden architekturspezifische Änderungen erfordern
Begrenzte Auswirkung seltener Token: 67% Vokabularreduktion beeinflussen nur 4% der Text-Retokenisierung
Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:
Quantisierungsmethoden: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
Tiefenpruning: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
Breitenpruning: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
Vokabularverarbeitung: Verwandte mehrsprachige und domänenspezifische Vokabular-Pruning-Arbeiten
Gesamtbewertung: Dies ist ein technisch solides und praktisch starkes Paper. Obwohl die theoretische Innovation relativ begrenzt ist, trägt es durch geschickte Methodenkombination und umfassende experimentelle Validierung eine effektive und leicht bereitzustellende Lösung zum LLM-Pruning-Bereich bei. Besonders die Vorteile beim Pruning kleiner Sprachmodelle und bei der Architekturkompatibilität bieten gute Anwendungsaussichten.