2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.
Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Grundinformationen

  • Paper-ID: 2510.12721
  • Titel: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
  • Autoren: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
  • Institution: LG Electronics USA
  • Klassifizierung: cs.LG
  • Veröffentlichungsdatum: 14. Oktober 2025 (arXiv Preprint)
  • Paper-Link: https://arxiv.org/abs/2510.12721v1

Zusammenfassung

Große Sprachmodelle (LLMs) sind typischerweise auf eine große Anzahl von Parametern für Token-Einbettungen angewiesen, was zu enormen Speicheranforderungen und Speicherverbrauch führt. Besonders LLMs, die auf Edge-Geräten bereitgestellt werden, unterliegen Speicherbeschränkungen. Die Komprimierung der Einbettungsschicht reduziert nicht nur den Speicherverbrauch, sondern beschleunigt auch die Inferenz. Zu diesem Zweck schlagen wir CARVQ vor, eine neuartige Post-Training-Methode, die einen korrigierenden Adapter mit Gruppen-Residual-Vektorquantisierung kombiniert. CARVQ basiert auf einer Kombination linearer und nichtlinearer Abbildungen, die die ursprüngliche Modelleinbettung nachahmen und ohne spezialisierte Hardware-Unterstützung für Niedrig-Bit-Speicherung auf etwa 1,6 Bits komprimieren. Die Methode wurde auf mehreren vortrainierten LLMs getestet und bei Generierungs-, Diskriminierungs-, Mathematik- und Reasoning-Aufgaben evaluiert. Sie zeigt, dass CARVQ eine niedrigere durchschnittliche Bitbreite pro Parameter bei Beibehaltung angemessener Verwirrung und Genauigkeit erreicht.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Die Einbettungsschicht großer Sprachmodelle verbraucht viel Speicher, besonders bei der Bereitstellung auf Edge-Geräten, wo sie zum Leistungsengpass wird
  2. Praktische Anforderung: Effiziente Bereitstellung von LLMs auf speicherbeschränkten Edge-Geräten
  3. Technische Herausforderung: Bestehende Quantisierungsmethoden zeigen bei extrem niedriger Bitbreite einen starken Leistungsabfall und erfordern spezialisierte Hardware-Unterstützung

Bedeutung des Problems

  • Speicheranteil-Problem: Wenn Transformer-Schichten quantisiert werden, nimmt der relative Speicheranteil der Einbettungsschicht erheblich zu (z.B. 52,06% im INT4-Modell von LLaMA-3.2-1B)
  • Edge-Computing-Anforderung: Der Speicher von Edge-Geräten ist typischerweise auf einige GB begrenzt; das Sparen von 0,5 GB Speicher kann zusätzliche 2B 4-Bit-Parameter oder längere Kontexte unterstützen
  • Hardware-Kompatibilität: Bestehende Niedrig-Bit-Quantisierungsmethoden erfordern spezialisierte Hardware-Unterstützung, was die Bereitstellungsflexibilität einschränkt

Einschränkungen bestehender Methoden

  1. Skalarquantisierung: Leistung fällt unter 2 Bits drastisch ab und erfordert spezielle Hardware-Unterstützung
  2. Quantisierungsbewusste Schulung (QAT): Erfordert ursprüngliche Trainingsdaten und umfangreiche Rechenressourcen für Umschulung
  3. Bestehende Einbettungskomprimierungsmethoden: Lineare Methoden wie TensorGPT zeigen bei hohen Komprimierungsverhältnissen erhebliche Genauitätsverluste

Kernbeiträge

  1. Vorschlag der CARVQ-Methode: Eine neuartige Post-Training-Kompressionstechnik, die einen korrigierenden Adapter mit Gruppen-Residual-Vektorquantisierung kombiniert, ohne spezialisierte Hardware-Unterstützung
  2. Erreichung extrem niedriger Bitbreite: Beibehaltung angemessener Leistung bei einer Komprimierungsrate von durchschnittlich 1,6 Bits pro Parameter, während Skalarquantisierung unter 3 Bits ausfällt
  3. Hardware-Kompatibilität: Kompatibilität mit bestehenden Transformer-Schicht-Quantisierungsmethoden, nur mit 4-Bit- und 16-Bit-Datentypen
  4. Umfassende Validierung: Validierung auf 7 verschiedenen vortrainierten Modellen unterschiedlicher Größe, abdeckend vier Aufgabentypen: Generierung, Diskriminierung, Mathematik und Reasoning

Methodendetails

Aufgabendefinition

Eingabe: Einbettungsmatrix MRV×nM \in \mathbb{R}^{V \times n} eines vortrainierten LLM, wobei VV die Vokabulargröße und nn die Einbettungsdimension ist Ausgabe: Komprimierte Einbettungsdarstellung, einschließlich quantisierter Nachschlagetabelle und korrigierendem Adapter Ziel: Minimierung des Rekonstruktionsfehlers bei gleichzeitiger Maximierung des Komprimierungsverhältnisses

Modellarchitektur

1. Gruppen-Residual-Vektorquantisierung (Group RVQ)

  • Matrixumformung: Umformung der Einbettungsmatrix zu MRnV/h×hM' \in \mathbb{R}^{nV/h \times h}, wobei hh die Subvektor-Dimension ist
  • Gruppierungsoperation: Aufteilung von MM' in nV/ghnV/gh Gruppen, jede Gruppe mit Größe g×hg \times h
  • Iterative Quantisierung: Anwendung von LL RVQ-Iterationen auf jede Gruppe, jede mit einem Codebuch von 2κ2^κ Zentroiden
  • Speicherformat: Codebücher werden mit ursprünglicher Präzision pp Bits gespeichert, Indizes mit κκ Bits

2. Korrigierender Adapter (Corrective Adaptor)

Designprinzip: Verwendung einer Schrumpfungs-Expansionsstrategie zur Reduzierung der Parameterzahl

  • Schrumpfungsabbildung: σ0:WRm\sigma_0: W \rightarrow \mathbb{R}^m, Abbildung von Tokens zu Vektoren niedriger Dimension (mnm \ll n)
  • Expansionsabbildung: σ1:RmRn\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n, Expansion zurück zur ursprünglichen Dimension durch mehrschichtiges Perzeptron

MLP-Struktur: σ1=hLhNLkhNL1\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1} wobei hNLi(x)=ReLU(Wix+bi)h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i), hL(x)=WLx+bLh_L(x) = W_L \cdot x + b_L

3. CARVQ-Gesamtrahmen

Kombinationsstrategie: Endgültige Einbettung = Group RVQ-Ausgabe + Korrigierender Adapter-Ausgabe Trainingsziel: Minimierung des L1-Rekonstruktionsfehlers L=i=1VMi(RVQ(Mi)+σ1(σ0(Ti)))1\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1

Technische Innovationen

  1. Nichtlinearer Kompensationsmechanismus: Der korrigierende Adapter kompensiert den Quantisierungsfehler von RVQ durch nichtlineare Abbildung
  2. Hardware-freundliches Design: Verwendung nur von 4-Bit- und 16-Bit-Datentypen, kompatibel mit bestehender Hardware
  3. Parametereffizientz: Die Parameterzahl des korrigierenden Adapters ist viel kleiner als die von RVQ, das Gesamtkomprimierungsverhältnis wird von RVQ dominiert
  4. Post-Training-Eigenschaft: Keine Umschulung erforderlich, direkte Anwendung auf vortrainierte Modelle

Komprimierungsverhältnis-Analyse

Durchschnittliche Bitbreite pro Parameter: BCARVQ=BCA+BRVQB_{CARVQ} = B_{CA} + B_{RVQ} wobei: BRVQ=p×Lh2κ×p+gLκgh×pB_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}BCA=p×NPnVB_{CA} = p \times \frac{N_P}{nV}

Experimentelle Einrichtung

Datensätze

  • Generierungsaufgaben: WikiText-2 Verwirrungsevaluierung
  • Diskriminierungsaufgaben: HellaSwag, WinoGrande, PIQA
  • Mathematikaufgaben: GSM8K
  • Reasoning-Aufgaben: ARC Challenge, ARC Easy

Bewertungsmetriken

  • Verwirrung (Perplexity): Messung der Generierungsqualität
  • Genauigkeit (Accuracy): Leistung bei Diskriminierungs- und Reasoning-Aufgaben
  • Durchschnittliche Bitbreite pro Parameter: Komprimierungseffizienz-Indikator
  • Speichereinsparung: Praktischer Bereitstellungsnutzen

Vergleichsmethoden

  • Skalarquantisierung: INT4, INT3, INT2 Standardquantisierung
  • AWQ-Quantisierung: Aktivierungsbewusste Gewichtsquantisierung
  • Ablationsstudien: CA+Skalarquantisierung vs. CARVQ

Implementierungsdetails

  • Hyperparameter: [m1,m2,m3]=[16,384,512][m_1, m_2, m_3] = [16, 384, 512], κ=4κ=4, h=8h=8, g=1024g=1024
  • Training: Adam-Optimierer, Lernrate 1e-3, 500 Iterationen
  • Hardware: RTX 4090, Trainingszeit etwa 2 Minuten

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei Generierungsaufgaben

MethodeDurchschn. BitbreiteVerwirrungszunahme
CARVQ-43,1550,238
CARVQ-32,4050,532
CARVQ-21,6553,544
INT33,00,750
INT22,083,88

Leistung bei Diskriminierungsaufgaben

  • CARVQ-3: Durchschnittliche Genauigkeitsabnahme 0,70%
  • CARVQ-2: Durchschnittliche Genauigkeitsabnahme 2,75%
  • INT2: Durchschnittliche Genauigkeitsabnahme 8,23%

Ablationsstudien

RVQ vs. Skalarquantisierung-Vergleich:

  • CARVQ-2 (1,655 Bits): WikiText-2 Verwirrung 16,34
  • CA+INT1 (1,155 Bits): WikiText-2 Verwirrung 14528
  • Demonstriert den signifikanten Vorteil von RVQ gegenüber Skalarquantisierung

Kompatibilitätsvalidierung

Kombination mit AWQ:

  • LLaMA-3.2-3B: CARVQ-3+AWQ Verwirrungszunahme nur 0,95
  • Qwen2.5-3B: CARVQ-3+AWQ Verwirrungszunahme nur 0,30
  • Demonstriert gute Kompatibilität mit bestehenden Quantisierungsmethoden

Experimentelle Erkenntnisse

  1. Modellgrößen-Effekt: Größere Modelle sind robuster gegenüber Einbettungsschicht-Quantisierung
  2. Aufgabensensitivität: Mathematikaufgaben sind am empfindlichsten gegenüber Komprimierung, Reasoning-Aufgaben sind relativ robust
  3. Optimale Konfiguration: CARVQ-3 erreicht das beste Gleichgewicht zwischen Komprimierungsverhältnis und Leistung

Verwandte Arbeiten

Architektur-erhaltende Komprimierung

  • Quantisierungsmethoden: AWQ, SmoothQuant und andere aktivierungsbewusste Quantisierungsmethoden
  • Pruning-Methoden: Strukturiertes Pruning, Attention-Head-Pruning
  • Vorteil dieser Arbeit: Fokus auf Einbettungsschicht, orthogonal kompatibel mit bestehenden Methoden

Architektur-adaptive Komprimierung

  • LoRA: Low-Rank-Adaptation für Feinabstimmung
  • Tensorfaktorisierung: Tensor-Train-Faktorisierung und andere Methoden
  • Unterschied dieser Arbeit: Post-Training-Komprimierung, keine Umschulung erforderlich

Einbettungsschicht-Komprimierung

  • TensorGPT: Basierend auf Tensor-Train-Faktorisierung, aber lineare Eigenschaften begrenzen hohe Komprimierungsleistung
  • Dynamisches Vokabular-Pruning: Erfordert Feinabstimmung, schlechte Verallgemeinerung
  • Beitrag dieser Arbeit: Erste effiziente Post-Training-Kompressionsmethode für Einbettungsschichten

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. CARVQ erreicht eine durchschnittliche Komprimierungsrate von 1,6 Bits, deutlich besser als die 3-Bit-Untergrenze der Skalarquantisierung
  2. Die Methode hat gute Hardware-Kompatibilität und erfordert nur 4-Bit- und 16-Bit-Datentypen-Unterstützung
  3. Sie ist orthogonal kompatibel mit bestehenden Transformer-Quantisierungsmethoden und kann nahtlos integriert werden

Einschränkungen

  1. Anwendungsbereich: Hauptsächlich anwendbar auf kleine Modelle; bei großen Modellen ist der relative Anteil der Einbettungsschicht kleiner
  2. Rechenkomplexität: Kann nicht direkt auf kontinuierliche Aktivierungen in Transformer-Schichten angewendet werden
  3. Semantische Information: Kann feinkörnige semantische Informationen verlieren, was Aufgaben beeinträchtigt, die subtile Darstellungen erfordern
  4. Fehlerausbreitung: Die Kombination mit übermäßig verlustbehafteter Transformer-Komprimierung könnte die Gesamtrobustheit beeinträchtigen

Zukünftige Richtungen

  1. Erweiterung auf Anwendungen bei größeren Modellen
  2. Untersuchung der tieferen Integration mit anderen Kompressionstechniken
  3. Entwicklung spezialisierter Hardware-Beschleunigung für Nachschlagetabellenoperationen
  4. Erforschung von Kompressionsmethoden, die semantische Strukturen bewahren

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste Kombination eines korrigierenden Adapters mit Gruppen-RVQ, löst das Einbettungsschicht-Kompressionsproblem
  2. Hoher praktischer Wert: Adressiert tatsächliche Anforderungen für Edge-Geräte-Bereitstellung mit direktem Anwendungswert
  3. Umfassende Experimente: Vollständige Evaluierung über 7 Modelle und 4 Aufgabentypen
  4. Engineering-freundlich: Gute Hardware-Kompatibilität, einfache Bereitstellung

Mängel

  1. Unzureichende theoretische Analyse: Mangel an tiefgehendem theoretischem Verständnis, warum diese Kombination effektiv ist
  2. Begrenzte Anwendungsszenarien: Hauptsächlich für kleine Modelle, weniger Vorteil bei großen Modellen
  3. Unbekannte Langzeitauswirkungen: Auswirkungen auf Modell-Feinabstimmung, kontinuierliches Lernen und andere nachgelagerte Aufgaben erfordern weitere Forschung

Einfluss

  1. Technischer Beitrag: Bietet einen neuen technologischen Pfad für LLM-Edge-Bereitstellung
  2. Industrieller Wert: Bedeutsam für LLM-Bereitstellung auf mobilen Geräten und IoT-Geräten
  3. Forschungsinspiration: Könnte weitere Forschung zu Einbettungsschicht-Komprimierung und Adapter-Design katalysieren

Anwendungsszenarien

  1. Edge-Computing: Speicherbeschränkte mobile Geräte, IoT-Geräte
  2. Echtzeitanwendungen: Dialogsysteme, Empfehlungssysteme, die schnelle Reaktionen erfordern
  3. Kostenempfindliche Szenarien: Anwendungen, die LLM-Bereitstellung mit begrenzten Hardware-Ressourcen erfordern

Literaturverzeichnis

  1. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
  2. Hu et al. (2022). LoRA: Low-rank adaptation of large language models
  3. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
  4. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

Gesamtbewertung: Dies ist ein hochqualitatives Fachpapier, das auf tatsächliche Bereitstellungsanforderungen abzielt. Die vorgeschlagene CARVQ-Methode stellt einen wichtigen Durchbruch im Bereich der Einbettungsschicht-Komprimierung dar und bietet eine effektive Lösung für die LLM-Edge-Bereitstellung. Trotz einiger Einschränkungen machen ihre Innovativität, Praktikabilität und Ingenieurwert sie zu einem wichtigen Beitrag in diesem Bereich.