Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
- Paper-ID: 2510.12721
- Titel: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
- Autoren: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
- Institution: LG Electronics USA
- Klassifizierung: cs.LG
- Veröffentlichungsdatum: 14. Oktober 2025 (arXiv Preprint)
- Paper-Link: https://arxiv.org/abs/2510.12721v1
Große Sprachmodelle (LLMs) sind typischerweise auf eine große Anzahl von Parametern für Token-Einbettungen angewiesen, was zu enormen Speicheranforderungen und Speicherverbrauch führt. Besonders LLMs, die auf Edge-Geräten bereitgestellt werden, unterliegen Speicherbeschränkungen. Die Komprimierung der Einbettungsschicht reduziert nicht nur den Speicherverbrauch, sondern beschleunigt auch die Inferenz. Zu diesem Zweck schlagen wir CARVQ vor, eine neuartige Post-Training-Methode, die einen korrigierenden Adapter mit Gruppen-Residual-Vektorquantisierung kombiniert. CARVQ basiert auf einer Kombination linearer und nichtlinearer Abbildungen, die die ursprüngliche Modelleinbettung nachahmen und ohne spezialisierte Hardware-Unterstützung für Niedrig-Bit-Speicherung auf etwa 1,6 Bits komprimieren. Die Methode wurde auf mehreren vortrainierten LLMs getestet und bei Generierungs-, Diskriminierungs-, Mathematik- und Reasoning-Aufgaben evaluiert. Sie zeigt, dass CARVQ eine niedrigere durchschnittliche Bitbreite pro Parameter bei Beibehaltung angemessener Verwirrung und Genauigkeit erreicht.
- Kernproblem: Die Einbettungsschicht großer Sprachmodelle verbraucht viel Speicher, besonders bei der Bereitstellung auf Edge-Geräten, wo sie zum Leistungsengpass wird
- Praktische Anforderung: Effiziente Bereitstellung von LLMs auf speicherbeschränkten Edge-Geräten
- Technische Herausforderung: Bestehende Quantisierungsmethoden zeigen bei extrem niedriger Bitbreite einen starken Leistungsabfall und erfordern spezialisierte Hardware-Unterstützung
- Speicheranteil-Problem: Wenn Transformer-Schichten quantisiert werden, nimmt der relative Speicheranteil der Einbettungsschicht erheblich zu (z.B. 52,06% im INT4-Modell von LLaMA-3.2-1B)
- Edge-Computing-Anforderung: Der Speicher von Edge-Geräten ist typischerweise auf einige GB begrenzt; das Sparen von 0,5 GB Speicher kann zusätzliche 2B 4-Bit-Parameter oder längere Kontexte unterstützen
- Hardware-Kompatibilität: Bestehende Niedrig-Bit-Quantisierungsmethoden erfordern spezialisierte Hardware-Unterstützung, was die Bereitstellungsflexibilität einschränkt
- Skalarquantisierung: Leistung fällt unter 2 Bits drastisch ab und erfordert spezielle Hardware-Unterstützung
- Quantisierungsbewusste Schulung (QAT): Erfordert ursprüngliche Trainingsdaten und umfangreiche Rechenressourcen für Umschulung
- Bestehende Einbettungskomprimierungsmethoden: Lineare Methoden wie TensorGPT zeigen bei hohen Komprimierungsverhältnissen erhebliche Genauitätsverluste
- Vorschlag der CARVQ-Methode: Eine neuartige Post-Training-Kompressionstechnik, die einen korrigierenden Adapter mit Gruppen-Residual-Vektorquantisierung kombiniert, ohne spezialisierte Hardware-Unterstützung
- Erreichung extrem niedriger Bitbreite: Beibehaltung angemessener Leistung bei einer Komprimierungsrate von durchschnittlich 1,6 Bits pro Parameter, während Skalarquantisierung unter 3 Bits ausfällt
- Hardware-Kompatibilität: Kompatibilität mit bestehenden Transformer-Schicht-Quantisierungsmethoden, nur mit 4-Bit- und 16-Bit-Datentypen
- Umfassende Validierung: Validierung auf 7 verschiedenen vortrainierten Modellen unterschiedlicher Größe, abdeckend vier Aufgabentypen: Generierung, Diskriminierung, Mathematik und Reasoning
Eingabe: Einbettungsmatrix M∈RV×n eines vortrainierten LLM, wobei V die Vokabulargröße und n die Einbettungsdimension ist
Ausgabe: Komprimierte Einbettungsdarstellung, einschließlich quantisierter Nachschlagetabelle und korrigierendem Adapter
Ziel: Minimierung des Rekonstruktionsfehlers bei gleichzeitiger Maximierung des Komprimierungsverhältnisses
- Matrixumformung: Umformung der Einbettungsmatrix zu M′∈RnV/h×h, wobei h die Subvektor-Dimension ist
- Gruppierungsoperation: Aufteilung von M′ in nV/gh Gruppen, jede Gruppe mit Größe g×h
- Iterative Quantisierung: Anwendung von L RVQ-Iterationen auf jede Gruppe, jede mit einem Codebuch von 2κ Zentroiden
- Speicherformat: Codebücher werden mit ursprünglicher Präzision p Bits gespeichert, Indizes mit κ Bits
Designprinzip: Verwendung einer Schrumpfungs-Expansionsstrategie zur Reduzierung der Parameterzahl
- Schrumpfungsabbildung: σ0:W→Rm, Abbildung von Tokens zu Vektoren niedriger Dimension (m≪n)
- Expansionsabbildung: σ1:Rm→Rn, Expansion zurück zur ursprünglichen Dimension durch mehrschichtiges Perzeptron
MLP-Struktur:
σ1=hL∘hNLk∘⋯∘hNL1
wobei hNLi(x)=ReLU(Wi⋅x+bi), hL(x)=WL⋅x+bL
Kombinationsstrategie: Endgültige Einbettung = Group RVQ-Ausgabe + Korrigierender Adapter-Ausgabe
Trainingsziel: Minimierung des L1-Rekonstruktionsfehlers
L=∑i=1V∣∣Mi−(RVQ(Mi)+σ1(σ0(Ti)))∣∣1
- Nichtlinearer Kompensationsmechanismus: Der korrigierende Adapter kompensiert den Quantisierungsfehler von RVQ durch nichtlineare Abbildung
- Hardware-freundliches Design: Verwendung nur von 4-Bit- und 16-Bit-Datentypen, kompatibel mit bestehender Hardware
- Parametereffizientz: Die Parameterzahl des korrigierenden Adapters ist viel kleiner als die von RVQ, das Gesamtkomprimierungsverhältnis wird von RVQ dominiert
- Post-Training-Eigenschaft: Keine Umschulung erforderlich, direkte Anwendung auf vortrainierte Modelle
Durchschnittliche Bitbreite pro Parameter:
BCARVQ=BCA+BRVQ
wobei:
BRVQ=p×gh×pLh2κ×p+gLκBCA=p×nVNP
- Generierungsaufgaben: WikiText-2 Verwirrungsevaluierung
- Diskriminierungsaufgaben: HellaSwag, WinoGrande, PIQA
- Mathematikaufgaben: GSM8K
- Reasoning-Aufgaben: ARC Challenge, ARC Easy
- Verwirrung (Perplexity): Messung der Generierungsqualität
- Genauigkeit (Accuracy): Leistung bei Diskriminierungs- und Reasoning-Aufgaben
- Durchschnittliche Bitbreite pro Parameter: Komprimierungseffizienz-Indikator
- Speichereinsparung: Praktischer Bereitstellungsnutzen
- Skalarquantisierung: INT4, INT3, INT2 Standardquantisierung
- AWQ-Quantisierung: Aktivierungsbewusste Gewichtsquantisierung
- Ablationsstudien: CA+Skalarquantisierung vs. CARVQ
- Hyperparameter: [m1,m2,m3]=[16,384,512], κ=4, h=8, g=1024
- Training: Adam-Optimierer, Lernrate 1e-3, 500 Iterationen
- Hardware: RTX 4090, Trainingszeit etwa 2 Minuten
| Methode | Durchschn. Bitbreite | Verwirrungszunahme |
|---|
| CARVQ-4 | 3,155 | 0,238 |
| CARVQ-3 | 2,405 | 0,532 |
| CARVQ-2 | 1,655 | 3,544 |
| INT3 | 3,0 | 0,750 |
| INT2 | 2,0 | 83,88 |
- CARVQ-3: Durchschnittliche Genauigkeitsabnahme 0,70%
- CARVQ-2: Durchschnittliche Genauigkeitsabnahme 2,75%
- INT2: Durchschnittliche Genauigkeitsabnahme 8,23%
RVQ vs. Skalarquantisierung-Vergleich:
- CARVQ-2 (1,655 Bits): WikiText-2 Verwirrung 16,34
- CA+INT1 (1,155 Bits): WikiText-2 Verwirrung 14528
- Demonstriert den signifikanten Vorteil von RVQ gegenüber Skalarquantisierung
Kombination mit AWQ:
- LLaMA-3.2-3B: CARVQ-3+AWQ Verwirrungszunahme nur 0,95
- Qwen2.5-3B: CARVQ-3+AWQ Verwirrungszunahme nur 0,30
- Demonstriert gute Kompatibilität mit bestehenden Quantisierungsmethoden
- Modellgrößen-Effekt: Größere Modelle sind robuster gegenüber Einbettungsschicht-Quantisierung
- Aufgabensensitivität: Mathematikaufgaben sind am empfindlichsten gegenüber Komprimierung, Reasoning-Aufgaben sind relativ robust
- Optimale Konfiguration: CARVQ-3 erreicht das beste Gleichgewicht zwischen Komprimierungsverhältnis und Leistung
- Quantisierungsmethoden: AWQ, SmoothQuant und andere aktivierungsbewusste Quantisierungsmethoden
- Pruning-Methoden: Strukturiertes Pruning, Attention-Head-Pruning
- Vorteil dieser Arbeit: Fokus auf Einbettungsschicht, orthogonal kompatibel mit bestehenden Methoden
- LoRA: Low-Rank-Adaptation für Feinabstimmung
- Tensorfaktorisierung: Tensor-Train-Faktorisierung und andere Methoden
- Unterschied dieser Arbeit: Post-Training-Komprimierung, keine Umschulung erforderlich
- TensorGPT: Basierend auf Tensor-Train-Faktorisierung, aber lineare Eigenschaften begrenzen hohe Komprimierungsleistung
- Dynamisches Vokabular-Pruning: Erfordert Feinabstimmung, schlechte Verallgemeinerung
- Beitrag dieser Arbeit: Erste effiziente Post-Training-Kompressionsmethode für Einbettungsschichten
- CARVQ erreicht eine durchschnittliche Komprimierungsrate von 1,6 Bits, deutlich besser als die 3-Bit-Untergrenze der Skalarquantisierung
- Die Methode hat gute Hardware-Kompatibilität und erfordert nur 4-Bit- und 16-Bit-Datentypen-Unterstützung
- Sie ist orthogonal kompatibel mit bestehenden Transformer-Quantisierungsmethoden und kann nahtlos integriert werden
- Anwendungsbereich: Hauptsächlich anwendbar auf kleine Modelle; bei großen Modellen ist der relative Anteil der Einbettungsschicht kleiner
- Rechenkomplexität: Kann nicht direkt auf kontinuierliche Aktivierungen in Transformer-Schichten angewendet werden
- Semantische Information: Kann feinkörnige semantische Informationen verlieren, was Aufgaben beeinträchtigt, die subtile Darstellungen erfordern
- Fehlerausbreitung: Die Kombination mit übermäßig verlustbehafteter Transformer-Komprimierung könnte die Gesamtrobustheit beeinträchtigen
- Erweiterung auf Anwendungen bei größeren Modellen
- Untersuchung der tieferen Integration mit anderen Kompressionstechniken
- Entwicklung spezialisierter Hardware-Beschleunigung für Nachschlagetabellenoperationen
- Erforschung von Kompressionsmethoden, die semantische Strukturen bewahren
- Hohe Innovativität: Erste Kombination eines korrigierenden Adapters mit Gruppen-RVQ, löst das Einbettungsschicht-Kompressionsproblem
- Hoher praktischer Wert: Adressiert tatsächliche Anforderungen für Edge-Geräte-Bereitstellung mit direktem Anwendungswert
- Umfassende Experimente: Vollständige Evaluierung über 7 Modelle und 4 Aufgabentypen
- Engineering-freundlich: Gute Hardware-Kompatibilität, einfache Bereitstellung
- Unzureichende theoretische Analyse: Mangel an tiefgehendem theoretischem Verständnis, warum diese Kombination effektiv ist
- Begrenzte Anwendungsszenarien: Hauptsächlich für kleine Modelle, weniger Vorteil bei großen Modellen
- Unbekannte Langzeitauswirkungen: Auswirkungen auf Modell-Feinabstimmung, kontinuierliches Lernen und andere nachgelagerte Aufgaben erfordern weitere Forschung
- Technischer Beitrag: Bietet einen neuen technologischen Pfad für LLM-Edge-Bereitstellung
- Industrieller Wert: Bedeutsam für LLM-Bereitstellung auf mobilen Geräten und IoT-Geräten
- Forschungsinspiration: Könnte weitere Forschung zu Einbettungsschicht-Komprimierung und Adapter-Design katalysieren
- Edge-Computing: Speicherbeschränkte mobile Geräte, IoT-Geräte
- Echtzeitanwendungen: Dialogsysteme, Empfehlungssysteme, die schnelle Reaktionen erfordern
- Kostenempfindliche Szenarien: Anwendungen, die LLM-Bereitstellung mit begrenzten Hardware-Ressourcen erfordern
- Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
- Hu et al. (2022). LoRA: Low-rank adaptation of large language models
- Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
- Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models
Gesamtbewertung: Dies ist ein hochqualitatives Fachpapier, das auf tatsächliche Bereitstellungsanforderungen abzielt. Die vorgeschlagene CARVQ-Methode stellt einen wichtigen Durchbruch im Bereich der Einbettungsschicht-Komprimierung dar und bietet eine effektive Lösung für die LLM-Edge-Bereitstellung. Trotz einiger Einschränkungen machen ihre Innovativität, Praktikabilität und Ingenieurwert sie zu einem wichtigen Beitrag in diesem Bereich.