2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin

Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.

academic

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Grundinformationen

Paper-ID: 2509.06836
Titel: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Autoren: Eugene Kwek, Wenpeng Yin (Penn State University)
Klassifizierung: cs.CL cs.AI cs.LG
Veröffentlichungsstatus: Preprint zur Überprüfung eingereicht
Paper-Link: https://arxiv.org/abs/2509.06836v3

Zusammenfassung

Dieses Paper präsentiert die COMPACT-Pruning-Methode zur Effizienzoptimierung großer Sprachmodelle (LLMs) hinsichtlich Speicher, Latenz und Servicekosten. Die Methode kombiniert Vokabular-Pruning mit gewichtungsbasiertem FFN-Kanal-Pruning unter Verwendung häufiger Token und erreicht dabei Parameterkompression bei Beibehaltung der Standard-Transformer-Architektur. Die Wirksamkeit der Methode wurde auf Modellfamilien wie Qwen, LLaMA und Gemma (0,5B–70B Parameter) experimentell validiert.

Forschungshintergrund und Motivation

Problemdefinition

Obwohl große Sprachmodelle bei verschiedenen NLP-Aufgaben hervorragende Leistungen zeigen, führt ihre enorme Parameterzahl (Milliarden bis Hunderte von Milliarden) zu hohen Bereitstellungskosten und schränkt ihre Anwendung auf Edge-Geräten, interaktiven Anwendungen und großflächigen Inferenzen ein.

Limitierungen bestehender Methoden

Width Pruning (Breitenpruning): Entfernt verborgene Dimensionen oder Kanäle, zerstört aber die Standard-Transformer-Architektur und erfordert benutzerdefinierten Inferenzcode
Depth Pruning (Tiefenpruning): Entfernt ganze Transformer-Blöcke; erhält zwar die Architektur, führt aber zu drastischen Leistungseinbußen
Schlechte Skalierbarkeit: Bestehende Methoden funktionieren bei großen Modellen gut, zeigen aber schlechte Leistung bei kleinen Sprachmodellen (SLMs)
Vernachlässigung sprachlicher Eigenschaften: Berücksichtigt nicht die unterschiedliche Wichtigkeit von Token und behandelt alle Token gleich

Forschungsmotivation

Durch Analysen entdeckten die Autoren:

Signifikante Unterschiede in der Parameterverteilung zwischen Modellen verschiedener Größen: In kleinen Modellen machen Vokabularparameter einen größeren Anteil aus, in großen Modellen dominieren FFN-Parameter
Natürliche Sprache folgt einer Zipf-Verteilung, wobei seltene Token extrem selten vorkommen und nur begrenzt zur nachgelagerten Leistung beitragen

Kernbeiträge

Systematische Analyse: Erste systematische Analyse der Verteilungsmuster von Embedding-, FFN- und Attention-Parametern in LLMs verschiedener Größen
COMPACT-Methode: Vorschlag eines neuen Frameworks, das Vokabular-Pruning mit häufig-Token-gewichtungsbasiertem FFN-Pruning kombiniert
Architekturkompatibilität: Beibehaltung der Standard-Transformer-Architektur mit Kompatibilität zu bestehenden Inferenz-Frameworks
Skalierungsadaptivität: Erreichung von SOTA-Leistung auf mehreren Modellfamilien mit 0,5B bis 70B Parametern

Methodische Details

Parameterverteilungsanalyse

Die Autoren analysieren zunächst die Parameterverteilung moderner Decoder-only Transformer:

Vokabularparameter: $N_{vocab} = 2VD$ (Embedding- und LM-Head-Schichten)
FFN-Parameter: $N_{FFN} = 3LDI$ (L Schichten, mittlere Dimension I)
Attention-Parameter: $N_{attention} = 2LD^2(1 + \frac{1}{H})$ (H als Kopfzahlverhältnis)

Mit zunehmender Modellgröße wachsen $N_{FFN}$ und $N_{attention}$ mit $O(LD^2)$ , während $N_{vocab}$ nur mit $O(D)$ wächst. Daher ist der Anteil der Vokabularparameter in kleinen Modellen größer.

COMPACT-Architektur

1. Vokabular-Pruning

Prinzip: Basierend auf der Zipf-Verteilung des BPE-Tokenizers werden die seltensten $V-V'$ Token entfernt
Implementierung: Direkte Löschung der entsprechenden Zeilen in Embedding- und LM-Head-Matrizen sowie der Merge-Regeln im Tokenizer
Vorteile: Keine Kalibrierungsdaten erforderlich, rechnerisch effizient

2. Häufig-Token-gewichtetes FFN-Pruning

Die traditionelle act²-Methode berechnet die Kanalwichtigkeit als: $I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k$

Die von COMPACT vorgeschlagene common act²-Methode: $I_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{andernfalls} \end{cases}$

wobei $S$ die Menge der zu pruning-enden seltenen Token ist.

Algorithmusablauf

Algorithmus 1 COMPACT
Eingabe: Modell M, Kalibrierungsdatensatz D, Ziel-Vokabulargröße V', Ziel-Mitteldimension I'
1. Identifiziere die Menge S der seltensten V-V' Token
2. Führe Vorwärtsdurchlauf auf Datensatz D durch, sammle quadrierte Aktivierungen
3. Berechne für jeden Kanal k die Wichtigkeit Ik mit common act²
4. Für jede Schicht: Pruning von I-I' am wenigsten wichtigen Kanälen
5. Pruning von Vokabularparametern: Entferne die letzten V-V' Zeilen aus Embedding- und LM-Head-Matrizen
6. Gebe das geprunte Modell M' zurück

Technische Innovationspunkte

Duale Pruning-Strategie: Kombiniert Vokabular-Pruning und FFN-Pruning, angepasst an die Parameterverteilungsmerkmale von Modellen verschiedener Größen
Häufig-Token-Gewichtung: FFN-Pruning berücksichtigt nur Token, die nach dem Pruning noch gültig sind, um Fehlleitung durch seltene Token zu vermeiden
Architekturbeibehaltung: Pruning nur der Vokabulargröße und Mitteldimension, Beibehaltung der Standard-Transformer-Struktur
Skalierungsadaptivität: Anpassung an verschiedene Skalierungsanforderungen durch Anpassung der beiden Hyperparameter $V'$ und $I'$

Experimentelle Einrichtung

Bewertungsmodelle

Kleine Sprachmodelle: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
Große Sprachmodelle: LLaMA 3.1-8B, LLaMA 3.1-70B

Datensätze und Aufgaben

Kalibrierungsdaten: 256 Samples aus dem C4-Datensatz
Bewertungsaufgaben: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

Vergleichsmethoden

Tiefenpruning: ShortGPT, LaCo
Breitenpruning: SliceGPT, 2SSP, FLAP

Bewertungsmetriken

Parameterprüning-Verhältnis, durchschnittliche Genauigkeit, relative Leistungsbeibehaltungsrate
Pruning-Zeit, Inferenzdurchsatz, GPU-Speichernutzung

Experimentelle Ergebnisse

Hauptergebnisse

Leistung kleiner Sprachmodelle

Bei Qwen 2.5-0.5B mit 35% Pruning-Verhältnis:

COMPACT: Durchschnittliche Genauigkeit 35,3% (70,4% relative Leistung)
Bestes Baseline: 31,4% (62,5% relative Leistung)

Bei LLaMA 3.2-1B mit 35% Pruning-Verhältnis:

COMPACT: Durchschnittliche Genauigkeit 36,9% (76,4% relative Leistung)
Bestes Baseline: 33,6% (69,6% relative Leistung)

Leistung großer Sprachmodelle

Bei LLaMA 3.1-70B mit 35% Pruning-Verhältnis:

COMPACT: Durchschnittliche Genauigkeit 63,7% (80,2% relative Leistung)
2SSP: 62,8% (79,1% relative Leistung)

Effizienzanalyse

Pruning-Zeit-Vergleich (LLaMA 3.1-8B, 35% Pruning)

COMPACT: 0:32
2SSP: 1:26
SliceGPT: 10:48

Inferenzeffizienz (LLaMA 3.1-8B, 35% Pruning)

Speichernutzung: COMPACT reduziert um 36% (optimal), ShortGPT/LaCo um 25%
Durchsatzsteigerung: COMPACT 37%, ShortGPT/LaCo 57%

Ablationsstudien

Wirksamkeit von Common act²

Bei Qwen 2.5-0.5B mit 35% Pruning:

Common act²: 70,4% relative Leistung
Standard act²: 69,2% relative Leistung
|act|-Methode: 67,6% relative Leistung

Vokabular-FFN-Abwägungsanalyse

Bei festem 37% Pruning-Verhältnis, verschiedene $V'$ - und $I'$ -Kombinationen:

Reines FFN-Pruning (V'=151936): 63,0% relative Leistung
Optimale Kombination (V'=49536): 70,4% relative Leistung

Wichtige Erkenntnisse

Sanfte Leistungsverschlechterung: COMPACT zeigt sanfte Leistungsabnahme, während Tiefenpruning-Methoden plötzliche Leistungssprünge aufweisen
Architekturunabhängigkeit: COMPACT kann direkt auf neue Architekturen wie Gemma 3 angewendet werden, während andere Methoden architekturspezifische Änderungen erfordern
Begrenzte Auswirkung seltener Token: 67% Vokabularreduktion beeinflussen nur 4% der Text-Retokenisierung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

COMPACT erreicht SOTA-Pruning-Leistung auf mehreren Modellfamilien und Skalen
Die Methode behält die Standard-Transformer-Architektur bei und bietet gute Bereitstellungskompatibilität
Die duale Pruning-Strategie passt sich effektiv an die Parameterverteilungsmerkmale von Modellen verschiedener Größen an

Limitierungen

Begrenzte Durchsatzsteigerung: Im Vergleich zu Tiefenpruning-Methoden besteht noch ein Unterschied bei der Inferenzdurchsatzsteigerung
Domänenadaptivität des Vokabular-Pruning: In spezifischen Domänen kann es erforderlich sein, mehr Fachbegriffe beizubehalten
Hyperparameter-Optimierung: Erfordert das Auffinden optimaler $V'$ - und $I'$ -Kombinationen für verschiedene Pruning-Verhältnisse

Zukünftige Richtungen

Die Autoren schlagen vor, die Lücke zwischen Breitenpruning und Tiefenpruning bei der Durchsatzsteigerung weiter zu schließen.

Tiefenbewertung

Stärken

Solide theoretische Grundlagen: Theoretisch fundiert auf Parameterverteilungsanalyse und Zipf-Verteilungseigenschaften
Ausgefeiltes Methodendesign: Common act² kombiniert geschickt Vokabular-Pruning und FFN-Pruning
Umfassende Experimente: Systematische Bewertung über mehrere Modellfamilien, Skalen und Aufgaben
Hoher praktischer Wert: Architekturkompatibilität ermöglicht einfache Bereitstellung

Schwächen

Begrenzte Innovationsstufe: Sowohl Vokabular-Pruning als auch FFN-Pruning sind bestehende Techniken; der Hauptbeitrag liegt in ihrer Kombination
Unzureichende theoretische Analyse: Mangel an tieferer theoretischer Erklärung, warum diese Kombination wirksam ist
Begrenzte Inferenzbeschleunigung: Bei kritischen Leistungsindikatoren (Durchsatz) nicht besser als Tiefenpruning-Methoden

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektive auf LLM-Pruning, besonders die Idee der Skalierungsadaptivität
Praktischer Wert: Methode ist einfach, effektiv und leicht zu implementieren und bereitzustellen
Reproduzierbarkeit: Autoren versprechen Open-Source-Code, was die Methodenverbreitung fördert

Anwendungsszenarien

Edge-Bereitstellung: Modellkompression in speicherbeschränkten Umgebungen
Multi-Scale-Bereitstellung: Szenarien, die gleichzeitige Unterstützung kleiner und großer Modelle erfordern
Schnelles Pruning: Anwendungen, die Modellkompression in kurzer Zeit erfordern

Referenzen

Das Paper zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

Quantisierungsmethoden: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
Tiefenpruning: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
Breitenpruning: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
Vokabularverarbeitung: Verwandte mehrsprachige und domänenspezifische Vokabular-Pruning-Arbeiten

Gesamtbewertung: Dies ist ein technisch solides und praktisch starkes Paper. Obwohl die theoretische Innovation relativ begrenzt ist, trägt es durch geschickte Methodenkombination und umfassende experimentelle Validierung eine effektive und leicht bereitzustellende Lösung zum LLM-Pruning-Bereich bei. Besonders die Vorteile beim Pruning kleiner Sprachmodelle und bei der Architekturkompatibilität bieten gute Anwendungsaussichten.