2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Grundinformationen

  • Paper-ID: 2509.06836
  • Titel: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
  • Autoren: Eugene Kwek, Wenpeng Yin (Penn State University)
  • Klassifizierung: cs.CL cs.AI cs.LG
  • Veröffentlichungsstatus: Preprint zur Überprüfung eingereicht
  • Paper-Link: https://arxiv.org/abs/2509.06836v3

Zusammenfassung

Dieses Paper präsentiert die COMPACT-Pruning-Methode zur Effizienzoptimierung großer Sprachmodelle (LLMs) hinsichtlich Speicher, Latenz und Servicekosten. Die Methode kombiniert Vokabular-Pruning mit gewichtungsbasiertem FFN-Kanal-Pruning unter Verwendung häufiger Token und erreicht dabei Parameterkompression bei Beibehaltung der Standard-Transformer-Architektur. Die Wirksamkeit der Methode wurde auf Modellfamilien wie Qwen, LLaMA und Gemma (0,5B–70B Parameter) experimentell validiert.

Forschungshintergrund und Motivation

Problemdefinition

Obwohl große Sprachmodelle bei verschiedenen NLP-Aufgaben hervorragende Leistungen zeigen, führt ihre enorme Parameterzahl (Milliarden bis Hunderte von Milliarden) zu hohen Bereitstellungskosten und schränkt ihre Anwendung auf Edge-Geräten, interaktiven Anwendungen und großflächigen Inferenzen ein.

Limitierungen bestehender Methoden

  1. Width Pruning (Breitenpruning): Entfernt verborgene Dimensionen oder Kanäle, zerstört aber die Standard-Transformer-Architektur und erfordert benutzerdefinierten Inferenzcode
  2. Depth Pruning (Tiefenpruning): Entfernt ganze Transformer-Blöcke; erhält zwar die Architektur, führt aber zu drastischen Leistungseinbußen
  3. Schlechte Skalierbarkeit: Bestehende Methoden funktionieren bei großen Modellen gut, zeigen aber schlechte Leistung bei kleinen Sprachmodellen (SLMs)
  4. Vernachlässigung sprachlicher Eigenschaften: Berücksichtigt nicht die unterschiedliche Wichtigkeit von Token und behandelt alle Token gleich

Forschungsmotivation

Durch Analysen entdeckten die Autoren:

  • Signifikante Unterschiede in der Parameterverteilung zwischen Modellen verschiedener Größen: In kleinen Modellen machen Vokabularparameter einen größeren Anteil aus, in großen Modellen dominieren FFN-Parameter
  • Natürliche Sprache folgt einer Zipf-Verteilung, wobei seltene Token extrem selten vorkommen und nur begrenzt zur nachgelagerten Leistung beitragen

Kernbeiträge

  1. Systematische Analyse: Erste systematische Analyse der Verteilungsmuster von Embedding-, FFN- und Attention-Parametern in LLMs verschiedener Größen
  2. COMPACT-Methode: Vorschlag eines neuen Frameworks, das Vokabular-Pruning mit häufig-Token-gewichtungsbasiertem FFN-Pruning kombiniert
  3. Architekturkompatibilität: Beibehaltung der Standard-Transformer-Architektur mit Kompatibilität zu bestehenden Inferenz-Frameworks
  4. Skalierungsadaptivität: Erreichung von SOTA-Leistung auf mehreren Modellfamilien mit 0,5B bis 70B Parametern

Methodische Details

Parameterverteilungsanalyse

Die Autoren analysieren zunächst die Parameterverteilung moderner Decoder-only Transformer:

  • Vokabularparameter: Nvocab=2VDN_{vocab} = 2VD (Embedding- und LM-Head-Schichten)
  • FFN-Parameter: NFFN=3LDIN_{FFN} = 3LDI (L Schichten, mittlere Dimension I)
  • Attention-Parameter: Nattention=2LD2(1+1H)N_{attention} = 2LD^2(1 + \frac{1}{H}) (H als Kopfzahlverhältnis)

Mit zunehmender Modellgröße wachsen NFFNN_{FFN} und NattentionN_{attention} mit O(LD2)O(LD^2), während NvocabN_{vocab} nur mit O(D)O(D) wächst. Daher ist der Anteil der Vokabularparameter in kleinen Modellen größer.

COMPACT-Architektur

1. Vokabular-Pruning

  • Prinzip: Basierend auf der Zipf-Verteilung des BPE-Tokenizers werden die seltensten VVV-V' Token entfernt
  • Implementierung: Direkte Löschung der entsprechenden Zeilen in Embedding- und LM-Head-Matrizen sowie der Merge-Regeln im Tokenizer
  • Vorteile: Keine Kalibrierungsdaten erforderlich, rechnerisch effizient

2. Häufig-Token-gewichtetes FFN-Pruning

Die traditionelle act²-Methode berechnet die Kanalwichtigkeit als: Ik=i=1N(SiLU(XiWgate)XiWup)k2I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k

Die von COMPACT vorgeschlagene common act²-Methode: Ik=i=1Nwi(SiLU(XiWgate)XiWup)k2,wi={0xiS1andernfallsI_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{andernfalls} \end{cases}

wobei SS die Menge der zu pruning-enden seltenen Token ist.

Algorithmusablauf

Algorithmus 1 COMPACT
Eingabe: Modell M, Kalibrierungsdatensatz D, Ziel-Vokabulargröße V', Ziel-Mitteldimension I'
1. Identifiziere die Menge S der seltensten V-V' Token
2. Führe Vorwärtsdurchlauf auf Datensatz D durch, sammle quadrierte Aktivierungen
3. Berechne für jeden Kanal k die Wichtigkeit Ik mit common act²
4. Für jede Schicht: Pruning von I-I' am wenigsten wichtigen Kanälen
5. Pruning von Vokabularparametern: Entferne die letzten V-V' Zeilen aus Embedding- und LM-Head-Matrizen
6. Gebe das geprunte Modell M' zurück

Technische Innovationspunkte

  1. Duale Pruning-Strategie: Kombiniert Vokabular-Pruning und FFN-Pruning, angepasst an die Parameterverteilungsmerkmale von Modellen verschiedener Größen
  2. Häufig-Token-Gewichtung: FFN-Pruning berücksichtigt nur Token, die nach dem Pruning noch gültig sind, um Fehlleitung durch seltene Token zu vermeiden
  3. Architekturbeibehaltung: Pruning nur der Vokabulargröße und Mitteldimension, Beibehaltung der Standard-Transformer-Struktur
  4. Skalierungsadaptivität: Anpassung an verschiedene Skalierungsanforderungen durch Anpassung der beiden Hyperparameter VV' und II'

Experimentelle Einrichtung

Bewertungsmodelle

  • Kleine Sprachmodelle: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
  • Große Sprachmodelle: LLaMA 3.1-8B, LLaMA 3.1-70B

Datensätze und Aufgaben

  • Kalibrierungsdaten: 256 Samples aus dem C4-Datensatz
  • Bewertungsaufgaben: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

Vergleichsmethoden

  • Tiefenpruning: ShortGPT, LaCo
  • Breitenpruning: SliceGPT, 2SSP, FLAP

Bewertungsmetriken

  • Parameterprüning-Verhältnis, durchschnittliche Genauigkeit, relative Leistungsbeibehaltungsrate
  • Pruning-Zeit, Inferenzdurchsatz, GPU-Speichernutzung

Experimentelle Ergebnisse

Hauptergebnisse

Leistung kleiner Sprachmodelle

Bei Qwen 2.5-0.5B mit 35% Pruning-Verhältnis:

  • COMPACT: Durchschnittliche Genauigkeit 35,3% (70,4% relative Leistung)
  • Bestes Baseline: 31,4% (62,5% relative Leistung)

Bei LLaMA 3.2-1B mit 35% Pruning-Verhältnis:

  • COMPACT: Durchschnittliche Genauigkeit 36,9% (76,4% relative Leistung)
  • Bestes Baseline: 33,6% (69,6% relative Leistung)

Leistung großer Sprachmodelle

Bei LLaMA 3.1-70B mit 35% Pruning-Verhältnis:

  • COMPACT: Durchschnittliche Genauigkeit 63,7% (80,2% relative Leistung)
  • 2SSP: 62,8% (79,1% relative Leistung)

Effizienzanalyse

Pruning-Zeit-Vergleich (LLaMA 3.1-8B, 35% Pruning)

  • COMPACT: 0:32
  • 2SSP: 1:26
  • SliceGPT: 10:48

Inferenzeffizienz (LLaMA 3.1-8B, 35% Pruning)

  • Speichernutzung: COMPACT reduziert um 36% (optimal), ShortGPT/LaCo um 25%
  • Durchsatzsteigerung: COMPACT 37%, ShortGPT/LaCo 57%

Ablationsstudien

Wirksamkeit von Common act²

Bei Qwen 2.5-0.5B mit 35% Pruning:

  • Common act²: 70,4% relative Leistung
  • Standard act²: 69,2% relative Leistung
  • |act|-Methode: 67,6% relative Leistung

Vokabular-FFN-Abwägungsanalyse

Bei festem 37% Pruning-Verhältnis, verschiedene VV'- und II'-Kombinationen:

  • Reines FFN-Pruning (V'=151936): 63,0% relative Leistung
  • Optimale Kombination (V'=49536): 70,4% relative Leistung

Wichtige Erkenntnisse

  1. Sanfte Leistungsverschlechterung: COMPACT zeigt sanfte Leistungsabnahme, während Tiefenpruning-Methoden plötzliche Leistungssprünge aufweisen
  2. Architekturunabhängigkeit: COMPACT kann direkt auf neue Architekturen wie Gemma 3 angewendet werden, während andere Methoden architekturspezifische Änderungen erfordern
  3. Begrenzte Auswirkung seltener Token: 67% Vokabularreduktion beeinflussen nur 4% der Text-Retokenisierung

Verwandte Arbeiten

Tiefenpruning

  • Repräsentative Methoden: Shortened LLaMA, SLEB, LLM-Streamline
  • Vorteile: Beibehaltung der Standard-Architektur, deutliche Inferenzbeschleunigung
  • Nachteile: Grobe Entfernung führt zu drastischen Leistungseinbußen

Breitenpruning

  • Repräsentative Methoden: LLM-Pruner, SliceGPT, FLAP, 2SSP
  • Vorteile: Feinkörnige Kontrolle, relativ sanfte Leistungsabnahme
  • Nachteile: Zerstört Standard-Architektur, erfordert benutzerdefinierten Inferenzcode

Vokabular-Pruning

  • Bestehende Arbeiten: Hauptsächlich auf sprachspezifisches oder domänenspezifisches Vokabular-Trimming ausgerichtet
  • Beitrag dieses Papers: Universelles LLM-Vokabular-Pruning, kombiniert mit FFN-Pruning zu einem vollständigen Framework

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. COMPACT erreicht SOTA-Pruning-Leistung auf mehreren Modellfamilien und Skalen
  2. Die Methode behält die Standard-Transformer-Architektur bei und bietet gute Bereitstellungskompatibilität
  3. Die duale Pruning-Strategie passt sich effektiv an die Parameterverteilungsmerkmale von Modellen verschiedener Größen an

Limitierungen

  1. Begrenzte Durchsatzsteigerung: Im Vergleich zu Tiefenpruning-Methoden besteht noch ein Unterschied bei der Inferenzdurchsatzsteigerung
  2. Domänenadaptivität des Vokabular-Pruning: In spezifischen Domänen kann es erforderlich sein, mehr Fachbegriffe beizubehalten
  3. Hyperparameter-Optimierung: Erfordert das Auffinden optimaler VV'- und II'-Kombinationen für verschiedene Pruning-Verhältnisse

Zukünftige Richtungen

Die Autoren schlagen vor, die Lücke zwischen Breitenpruning und Tiefenpruning bei der Durchsatzsteigerung weiter zu schließen.

Tiefenbewertung

Stärken

  1. Solide theoretische Grundlagen: Theoretisch fundiert auf Parameterverteilungsanalyse und Zipf-Verteilungseigenschaften
  2. Ausgefeiltes Methodendesign: Common act² kombiniert geschickt Vokabular-Pruning und FFN-Pruning
  3. Umfassende Experimente: Systematische Bewertung über mehrere Modellfamilien, Skalen und Aufgaben
  4. Hoher praktischer Wert: Architekturkompatibilität ermöglicht einfache Bereitstellung

Schwächen

  1. Begrenzte Innovationsstufe: Sowohl Vokabular-Pruning als auch FFN-Pruning sind bestehende Techniken; der Hauptbeitrag liegt in ihrer Kombination
  2. Unzureichende theoretische Analyse: Mangel an tieferer theoretischer Erklärung, warum diese Kombination wirksam ist
  3. Begrenzte Inferenzbeschleunigung: Bei kritischen Leistungsindikatoren (Durchsatz) nicht besser als Tiefenpruning-Methoden

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektive auf LLM-Pruning, besonders die Idee der Skalierungsadaptivität
  2. Praktischer Wert: Methode ist einfach, effektiv und leicht zu implementieren und bereitzustellen
  3. Reproduzierbarkeit: Autoren versprechen Open-Source-Code, was die Methodenverbreitung fördert

Anwendungsszenarien

  1. Edge-Bereitstellung: Modellkompression in speicherbeschränkten Umgebungen
  2. Multi-Scale-Bereitstellung: Szenarien, die gleichzeitige Unterstützung kleiner und großer Modelle erfordern
  3. Schnelles Pruning: Anwendungen, die Modellkompression in kurzer Zeit erfordern

Referenzen

Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Quantisierungsmethoden: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
  • Tiefenpruning: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
  • Breitenpruning: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
  • Vokabularverarbeitung: Verwandte mehrsprachige und domänenspezifische Vokabular-Pruning-Arbeiten

Gesamtbewertung: Dies ist ein technisch solides und praktisch starkes Paper. Obwohl die theoretische Innovation relativ begrenzt ist, trägt es durch geschickte Methodenkombination und umfassende experimentelle Validierung eine effektive und leicht bereitzustellende Lösung zum LLM-Pruning-Bereich bei. Besonders die Vorteile beim Pruning kleiner Sprachmodelle und bei der Architekturkompatibilität bieten gute Anwendungsaussichten.