2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.

Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.

academic

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Grundinformationen

Paper-ID: 2510.12721
Titel: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
Autoren: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
Institution: LG Electronics USA
Klassifizierung: cs.LG
Veröffentlichungsdatum: 14. Oktober 2025 (arXiv Preprint)
Paper-Link: https://arxiv.org/abs/2510.12721v1

Zusammenfassung

Große Sprachmodelle (LLMs) sind typischerweise auf eine große Anzahl von Parametern für Token-Einbettungen angewiesen, was zu enormen Speicheranforderungen und Speicherverbrauch führt. Besonders LLMs, die auf Edge-Geräten bereitgestellt werden, unterliegen Speicherbeschränkungen. Die Komprimierung der Einbettungsschicht reduziert nicht nur den Speicherverbrauch, sondern beschleunigt auch die Inferenz. Zu diesem Zweck schlagen wir CARVQ vor, eine neuartige Post-Training-Methode, die einen korrigierenden Adapter mit Gruppen-Residual-Vektorquantisierung kombiniert. CARVQ basiert auf einer Kombination linearer und nichtlinearer Abbildungen, die die ursprüngliche Modelleinbettung nachahmen und ohne spezialisierte Hardware-Unterstützung für Niedrig-Bit-Speicherung auf etwa 1,6 Bits komprimieren. Die Methode wurde auf mehreren vortrainierten LLMs getestet und bei Generierungs-, Diskriminierungs-, Mathematik- und Reasoning-Aufgaben evaluiert. Sie zeigt, dass CARVQ eine niedrigere durchschnittliche Bitbreite pro Parameter bei Beibehaltung angemessener Verwirrung und Genauigkeit erreicht.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Die Einbettungsschicht großer Sprachmodelle verbraucht viel Speicher, besonders bei der Bereitstellung auf Edge-Geräten, wo sie zum Leistungsengpass wird
Praktische Anforderung: Effiziente Bereitstellung von LLMs auf speicherbeschränkten Edge-Geräten
Technische Herausforderung: Bestehende Quantisierungsmethoden zeigen bei extrem niedriger Bitbreite einen starken Leistungsabfall und erfordern spezialisierte Hardware-Unterstützung

Bedeutung des Problems

Speicheranteil-Problem: Wenn Transformer-Schichten quantisiert werden, nimmt der relative Speicheranteil der Einbettungsschicht erheblich zu (z.B. 52,06% im INT4-Modell von LLaMA-3.2-1B)
Edge-Computing-Anforderung: Der Speicher von Edge-Geräten ist typischerweise auf einige GB begrenzt; das Sparen von 0,5 GB Speicher kann zusätzliche 2B 4-Bit-Parameter oder längere Kontexte unterstützen
Hardware-Kompatibilität: Bestehende Niedrig-Bit-Quantisierungsmethoden erfordern spezialisierte Hardware-Unterstützung, was die Bereitstellungsflexibilität einschränkt

Einschränkungen bestehender Methoden

Skalarquantisierung: Leistung fällt unter 2 Bits drastisch ab und erfordert spezielle Hardware-Unterstützung
Quantisierungsbewusste Schulung (QAT): Erfordert ursprüngliche Trainingsdaten und umfangreiche Rechenressourcen für Umschulung
Bestehende Einbettungskomprimierungsmethoden: Lineare Methoden wie TensorGPT zeigen bei hohen Komprimierungsverhältnissen erhebliche Genauitätsverluste

Kernbeiträge

Vorschlag der CARVQ-Methode: Eine neuartige Post-Training-Kompressionstechnik, die einen korrigierenden Adapter mit Gruppen-Residual-Vektorquantisierung kombiniert, ohne spezialisierte Hardware-Unterstützung
Erreichung extrem niedriger Bitbreite: Beibehaltung angemessener Leistung bei einer Komprimierungsrate von durchschnittlich 1,6 Bits pro Parameter, während Skalarquantisierung unter 3 Bits ausfällt
Hardware-Kompatibilität: Kompatibilität mit bestehenden Transformer-Schicht-Quantisierungsmethoden, nur mit 4-Bit- und 16-Bit-Datentypen
Umfassende Validierung: Validierung auf 7 verschiedenen vortrainierten Modellen unterschiedlicher Größe, abdeckend vier Aufgabentypen: Generierung, Diskriminierung, Mathematik und Reasoning

Methodendetails

Aufgabendefinition

Eingabe: Einbettungsmatrix $M \in \mathbb{R}^{V \times n}$ eines vortrainierten LLM, wobei $V$ die Vokabulargröße und $n$ die Einbettungsdimension ist Ausgabe: Komprimierte Einbettungsdarstellung, einschließlich quantisierter Nachschlagetabelle und korrigierendem Adapter Ziel: Minimierung des Rekonstruktionsfehlers bei gleichzeitiger Maximierung des Komprimierungsverhältnisses

Modellarchitektur

1. Gruppen-Residual-Vektorquantisierung (Group RVQ)

Matrixumformung: Umformung der Einbettungsmatrix zu $M' \in \mathbb{R}^{nV/h \times h}$ , wobei $h$ die Subvektor-Dimension ist
Gruppierungsoperation: Aufteilung von $M'$ in $nV/gh$ Gruppen, jede Gruppe mit Größe $g \times h$
Iterative Quantisierung: Anwendung von $L$ RVQ-Iterationen auf jede Gruppe, jede mit einem Codebuch von $2^κ$ Zentroiden
Speicherformat: Codebücher werden mit ursprünglicher Präzision $p$ Bits gespeichert, Indizes mit $κ$ Bits

2. Korrigierender Adapter (Corrective Adaptor)

Designprinzip: Verwendung einer Schrumpfungs-Expansionsstrategie zur Reduzierung der Parameterzahl

Schrumpfungsabbildung: $\sigma_0: W \rightarrow \mathbb{R}^m$ , Abbildung von Tokens zu Vektoren niedriger Dimension ( $m \ll n$ )
Expansionsabbildung: $\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n$ , Expansion zurück zur ursprünglichen Dimension durch mehrschichtiges Perzeptron

MLP-Struktur: $\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1}$ wobei $h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)$ , $h_L(x) = W_L \cdot x + b_L$

3. CARVQ-Gesamtrahmen

Kombinationsstrategie: Endgültige Einbettung = Group RVQ-Ausgabe + Korrigierender Adapter-Ausgabe Trainingsziel: Minimierung des L1-Rekonstruktionsfehlers $\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1$

Technische Innovationen

Nichtlinearer Kompensationsmechanismus: Der korrigierende Adapter kompensiert den Quantisierungsfehler von RVQ durch nichtlineare Abbildung
Hardware-freundliches Design: Verwendung nur von 4-Bit- und 16-Bit-Datentypen, kompatibel mit bestehender Hardware
Parametereffizientz: Die Parameterzahl des korrigierenden Adapters ist viel kleiner als die von RVQ, das Gesamtkomprimierungsverhältnis wird von RVQ dominiert
Post-Training-Eigenschaft: Keine Umschulung erforderlich, direkte Anwendung auf vortrainierte Modelle

Komprimierungsverhältnis-Analyse

Durchschnittliche Bitbreite pro Parameter: $B_{CARVQ} = B_{CA} + B_{RVQ}$ wobei: $B_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}$ $B_{CA} = p \times \frac{N_P}{nV}$

Experimentelle Einrichtung

Datensätze

Generierungsaufgaben: WikiText-2 Verwirrungsevaluierung
Diskriminierungsaufgaben: HellaSwag, WinoGrande, PIQA
Mathematikaufgaben: GSM8K
Reasoning-Aufgaben: ARC Challenge, ARC Easy

Bewertungsmetriken

Verwirrung (Perplexity): Messung der Generierungsqualität
Genauigkeit (Accuracy): Leistung bei Diskriminierungs- und Reasoning-Aufgaben
Durchschnittliche Bitbreite pro Parameter: Komprimierungseffizienz-Indikator
Speichereinsparung: Praktischer Bereitstellungsnutzen

Vergleichsmethoden

Skalarquantisierung: INT4, INT3, INT2 Standardquantisierung
AWQ-Quantisierung: Aktivierungsbewusste Gewichtsquantisierung
Ablationsstudien: CA+Skalarquantisierung vs. CARVQ

Implementierungsdetails

Hyperparameter: $[m_1, m_2, m_3] = [16, 384, 512]$ , $κ=4$ , $h=8$ , $g=1024$
Training: Adam-Optimierer, Lernrate 1e-3, 500 Iterationen
Hardware: RTX 4090, Trainingszeit etwa 2 Minuten

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei Generierungsaufgaben

Methode	Durchschn. Bitbreite	Verwirrungszunahme
CARVQ-4	3,155	0,238
CARVQ-3	2,405	0,532
CARVQ-2	1,655	3,544
INT3	3,0	0,750
INT2	2,0	83,88

Leistung bei Diskriminierungsaufgaben

CARVQ-3: Durchschnittliche Genauigkeitsabnahme 0,70%
CARVQ-2: Durchschnittliche Genauigkeitsabnahme 2,75%
INT2: Durchschnittliche Genauigkeitsabnahme 8,23%

Ablationsstudien

RVQ vs. Skalarquantisierung-Vergleich:

CARVQ-2 (1,655 Bits): WikiText-2 Verwirrung 16,34
CA+INT1 (1,155 Bits): WikiText-2 Verwirrung 14528
Demonstriert den signifikanten Vorteil von RVQ gegenüber Skalarquantisierung

Kompatibilitätsvalidierung

Kombination mit AWQ:

LLaMA-3.2-3B: CARVQ-3+AWQ Verwirrungszunahme nur 0,95
Qwen2.5-3B: CARVQ-3+AWQ Verwirrungszunahme nur 0,30
Demonstriert gute Kompatibilität mit bestehenden Quantisierungsmethoden

Experimentelle Erkenntnisse

Modellgrößen-Effekt: Größere Modelle sind robuster gegenüber Einbettungsschicht-Quantisierung
Aufgabensensitivität: Mathematikaufgaben sind am empfindlichsten gegenüber Komprimierung, Reasoning-Aufgaben sind relativ robust
Optimale Konfiguration: CARVQ-3 erreicht das beste Gleichgewicht zwischen Komprimierungsverhältnis und Leistung

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

CARVQ erreicht eine durchschnittliche Komprimierungsrate von 1,6 Bits, deutlich besser als die 3-Bit-Untergrenze der Skalarquantisierung
Die Methode hat gute Hardware-Kompatibilität und erfordert nur 4-Bit- und 16-Bit-Datentypen-Unterstützung
Sie ist orthogonal kompatibel mit bestehenden Transformer-Quantisierungsmethoden und kann nahtlos integriert werden

Einschränkungen

Anwendungsbereich: Hauptsächlich anwendbar auf kleine Modelle; bei großen Modellen ist der relative Anteil der Einbettungsschicht kleiner
Rechenkomplexität: Kann nicht direkt auf kontinuierliche Aktivierungen in Transformer-Schichten angewendet werden
Semantische Information: Kann feinkörnige semantische Informationen verlieren, was Aufgaben beeinträchtigt, die subtile Darstellungen erfordern
Fehlerausbreitung: Die Kombination mit übermäßig verlustbehafteter Transformer-Komprimierung könnte die Gesamtrobustheit beeinträchtigen

Zukünftige Richtungen

Erweiterung auf Anwendungen bei größeren Modellen
Untersuchung der tieferen Integration mit anderen Kompressionstechniken
Entwicklung spezialisierter Hardware-Beschleunigung für Nachschlagetabellenoperationen
Erforschung von Kompressionsmethoden, die semantische Strukturen bewahren

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Erste Kombination eines korrigierenden Adapters mit Gruppen-RVQ, löst das Einbettungsschicht-Kompressionsproblem
Hoher praktischer Wert: Adressiert tatsächliche Anforderungen für Edge-Geräte-Bereitstellung mit direktem Anwendungswert
Umfassende Experimente: Vollständige Evaluierung über 7 Modelle und 4 Aufgabentypen
Engineering-freundlich: Gute Hardware-Kompatibilität, einfache Bereitstellung

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgehendem theoretischem Verständnis, warum diese Kombination effektiv ist
Begrenzte Anwendungsszenarien: Hauptsächlich für kleine Modelle, weniger Vorteil bei großen Modellen
Unbekannte Langzeitauswirkungen: Auswirkungen auf Modell-Feinabstimmung, kontinuierliches Lernen und andere nachgelagerte Aufgaben erfordern weitere Forschung

Einfluss

Technischer Beitrag: Bietet einen neuen technologischen Pfad für LLM-Edge-Bereitstellung
Industrieller Wert: Bedeutsam für LLM-Bereitstellung auf mobilen Geräten und IoT-Geräten
Forschungsinspiration: Könnte weitere Forschung zu Einbettungsschicht-Komprimierung und Adapter-Design katalysieren

Anwendungsszenarien

Edge-Computing: Speicherbeschränkte mobile Geräte, IoT-Geräte
Echtzeitanwendungen: Dialogsysteme, Empfehlungssysteme, die schnelle Reaktionen erfordern
Kostenempfindliche Szenarien: Anwendungen, die LLM-Bereitstellung mit begrenzten Hardware-Ressourcen erfordern

Literaturverzeichnis

Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
Hu et al. (2022). LoRA: Low-rank adaptation of large language models
Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

Gesamtbewertung: Dies ist ein hochqualitatives Fachpapier, das auf tatsächliche Bereitstellungsanforderungen abzielt. Die vorgeschlagene CARVQ-Methode stellt einen wichtigen Durchbruch im Bereich der Einbettungsschicht-Komprimierung dar und bietet eine effektive Lösung für die LLM-Edge-Bereitstellung. Trotz einiger Einschränkungen machen ihre Innovativität, Praktikabilität und Ingenieurwert sie zu einem wichtigen Beitrag in diesem Bereich.