2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.
Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic

CARVQ: Adattatore Correttivo con Quantizzazione Vettoriale Residua Gruppale per la Compressione degli Embedding di LLM

Informazioni Fondamentali

  • ID Articolo: 2510.12721
  • Titolo: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
  • Autori: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
  • Istituzione: LG Electronics USA
  • Classificazione: cs.LG
  • Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.12721v1

Riassunto

I modelli linguistici di grandi dimensioni (LLM) dipendono tipicamente da un numero elevato di parametri per gli embedding dei token, determinando enormi requisiti di archiviazione e consumo di memoria. In particolare, gli LLM distribuiti su dispositivi edge sono limitati dalla memoria; la compressione dello strato di embedding non solo riduce il consumo di memoria, ma accelera anche l'inferenza. A questo scopo, il presente articolo propone CARVQ, un nuovo metodo post-addestramento che combina un adattatore correttivo con quantizzazione vettoriale residua gruppale. CARVQ si basa su una combinazione di mappature lineari e non lineari per imitare gli embedding del modello originale, raggiungendo una compressione a circa 1,6 bit per parametro senza richiedere supporto hardware specializzato per l'archiviazione a bassa precisione. Il metodo è stato testato su molteplici LLM pre-addestrati e valutato su compiti generativi, discriminativi, matematici e di ragionamento, dimostrando che CARVQ raggiunge una larghezza di banda media per parametro inferiore mantenendo perplexity e accuratezza ragionevoli.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: Lo strato di embedding dei modelli linguistici di grandi dimensioni consuma una quantità significativa di memoria, diventando un collo di bottiglia prestazionale soprattutto nella distribuzione su dispositivi edge
  2. Esigenza Pratica: Distribuzione efficiente di LLM su dispositivi edge con memoria limitata
  3. Sfida Tecnica: I metodi di quantizzazione esistenti mostrano un degrado prestazionale drastico a larghezze di banda estremamente basse e richiedono hardware specializzato

Importanza del Problema

  • Problema dell'Occupazione di Memoria: Quando gli strati transformer vengono quantizzati, l'occupazione relativa di memoria dello strato di embedding aumenta significativamente (ad esempio, il 52,06% nel modello INT4 di LLaMA-3.2-1B)
  • Esigenza del Calcolo Edge: La memoria dei dispositivi edge è tipicamente limitata a pochi GB; il risparmio di 0,5 GB di memoria può supportare 2 miliardi di parametri aggiuntivi a 4 bit o contesti più lunghi
  • Compatibilità Hardware: I metodi di quantizzazione a bassa precisione esistenti richiedono supporto hardware specializzato, limitando la flessibilità di distribuzione

Limitazioni dei Metodi Esistenti

  1. Quantizzazione Scalare: Mostra degrado prestazionale drastico al di sotto di 2 bit e richiede supporto hardware speciale
  2. Addestramento Consapevole della Quantizzazione (QAT): Richiede dati di addestramento originali e notevoli risorse computazionali per il riaddestrament
  3. Metodi di Compressione degli Embedding Esistenti: Metodi lineari come TensorGPT mostrano perdita di precisione significativa ad alti rapporti di compressione

Contributi Fondamentali

  1. Proposta del Metodo CARVQ: Nuova tecnica di compressione post-addestramento che combina adattatore correttivo e quantizzazione vettoriale residua gruppale, senza richiedere hardware specializzato
  2. Compressione a Larghezza di Banda Estremamente Bassa: Mantiene prestazioni ragionevoli con una velocità di compressione media di 1,6 bit per parametro, mentre la quantizzazione scalare fallisce al di sotto di 3 bit
  3. Compatibilità Hardware: Compatibile con i metodi di quantizzazione dello strato transformer esistenti, utilizzando solo tipi di dati a 4 bit e 16 bit
  4. Validazione Ampia: Validazione su 7 modelli pre-addestrati di diverse dimensioni, coprendo quattro categorie di compiti: generativi, discriminativi, matematici e di ragionamento

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Matrice di embedding MRV×nM \in \mathbb{R}^{V \times n} dell'LLM pre-addestrato, dove VV è la dimensione del vocabolario e nn è la dimensione dell'embedding Output: Rappresentazione di embedding compresso, inclusa tabella di ricerca quantizzata e adattatore correttivo Obiettivo: Minimizzare l'errore di ricostruzione raggiungendo il massimo rapporto di compressione

Architettura del Modello

1. Quantizzazione Vettoriale Residua Gruppale (Group RVQ)

  • Rimodellamento della Matrice: Rimodellamento della matrice di embedding in MRnV/h×hM' \in \mathbb{R}^{nV/h \times h}, dove hh è la dimensione del sottovettore
  • Operazione di Raggruppamento: Divisione di MM' in nV/ghnV/gh gruppi, ciascuno di dimensione g×hg \times h
  • Quantizzazione Iterativa: Applicazione di LL iterazioni di RVQ a ogni gruppo, utilizzando codebook con 2κ2^κ centroidi per iterazione
  • Modalità di Archiviazione: I codebook vengono archiviati con precisione originale pp bit, gli indici con κκ bit

2. Adattatore Correttivo (Corrective Adaptor)

Principio di Progettazione: Strategia di contrazione-espansione per ridurre il numero di parametri

  • Mappatura di Contrazione: σ0:WRm\sigma_0: W \rightarrow \mathbb{R}^m, che mappa i token a vettori di piccola dimensione (mnm \ll n)
  • Mappatura di Espansione: σ1:RmRn\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n, che espande alla dimensione originale attraverso un perceptron multistrato

Struttura MLP: σ1=hLhNLkhNL1\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1} dove hNLi(x)=ReLU(Wix+bi)h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i), hL(x)=WLx+bLh_L(x) = W_L \cdot x + b_L

3. Framework Complessivo di CARVQ

Strategia di Combinazione: Embedding finale = output di Group RVQ + output dell'adattatore correttivo Obiettivo di Addestramento: Minimizzazione dell'errore di ricostruzione L1 L=i=1VMi(RVQ(Mi)+σ1(σ0(Ti)))1\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1

Punti di Innovazione Tecnica

  1. Meccanismo di Compensazione Non Lineare: L'adattatore correttivo compensa l'errore di quantizzazione di RVQ attraverso mappature non lineari
  2. Progettazione Hardware-Friendly: Utilizza solo tipi di dati a 4 bit e 16 bit, compatibile con hardware esistente
  3. Efficienza Parametrica: Il numero di parametri dell'adattatore correttivo è significativamente inferiore a RVQ, con il rapporto di compressione complessivo dominato da RVQ
  4. Caratteristica Post-Addestramento: Non richiede riaddestrament, applicabile direttamente a modelli pre-addestrati

Analisi del Rapporto di Compressione

Larghezza di Banda Media per Parametro: BCARVQ=BCA+BRVQB_{CARVQ} = B_{CA} + B_{RVQ} dove: BRVQ=p×Lh2κ×p+gLκgh×pB_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}BCA=p×NPnVB_{CA} = p \times \frac{N_P}{nV}

Configurazione Sperimentale

Dataset

  • Compiti Generativi: Valutazione della perplexity su WikiText-2
  • Compiti Discriminativi: HellaSwag, WinoGrande, PIQA
  • Compiti Matematici: GSM8K
  • Compiti di Ragionamento: ARC Challenge, ARC Easy

Metriche di Valutazione

  • Perplexity: Misura della qualità generativa
  • Accuratezza: Prestazioni su compiti discriminativi e di ragionamento
  • Larghezza di Banda Media per Parametro: Indicatore di efficienza di compressione
  • Risparmio di Memoria: Beneficio di distribuzione pratica

Metodi di Confronto

  • Quantizzazione Scalare: Quantizzazione standard INT4, INT3, INT2
  • Quantizzazione AWQ: Quantizzazione dei pesi consapevole dell'attivazione
  • Esperimenti di Ablazione: CA + quantizzazione scalare vs CARVQ

Dettagli di Implementazione

  • Iperparametri: [m1,m2,m3]=[16,384,512][m_1, m_2, m_3] = [16, 384, 512], κ=4κ=4, h=8h=8, g=1024g=1024
  • Addestramento: Ottimizzatore Adam, tasso di apprendimento 1e-3, 500 iterazioni
  • Hardware: RTX 4090, tempo di addestramento circa 2 minuti

Risultati Sperimentali

Risultati Principali

Prestazioni su Compiti Generativi

MetodoLarghezza di Banda MediaAumento di Perplexity
CARVQ-43.1550.238
CARVQ-32.4050.532
CARVQ-21.6553.544
INT33.00.750
INT22.083.88

Prestazioni su Compiti Discriminativi

  • CARVQ-3: Diminuzione media di accuratezza del 0,70%
  • CARVQ-2: Diminuzione media di accuratezza del 2,75%
  • INT2: Diminuzione media di accuratezza dell'8,23%

Esperimenti di Ablazione

Confronto RVQ vs Quantizzazione Scalare:

  • CARVQ-2 (1.655 bit): Perplexity WikiText-2 di 16.34
  • CA+INT1 (1.155 bit): Perplexity WikiText-2 di 14528
  • Dimostra il vantaggio significativo di RVQ rispetto alla quantizzazione scalare

Verifica di Compatibilità

Combinazione con AWQ:

  • LLaMA-3.2-3B: Aumento di perplexity CARVQ-3+AWQ di soli 0.95
  • Qwen2.5-3B: Aumento di perplexity CARVQ-3+AWQ di soli 0.30
  • Dimostra buona compatibilità con metodi di quantizzazione esistenti

Scoperte Sperimentali

  1. Effetto della Dimensione del Modello: Modelli più grandi sono più robusti alla quantizzazione dello strato di embedding
  2. Sensibilità ai Compiti: I compiti matematici sono più sensibili alla compressione, mentre i compiti di ragionamento sono relativamente robusti
  3. Configurazione Ottimale: CARVQ-3 raggiunge il miglior equilibrio tra rapporto di compressione e prestazioni

Lavori Correlati

Compressione che Preserva l'Architettura

  • Metodi di Quantizzazione: Quantizzazione consapevole dell'attivazione come AWQ, SmoothQuant
  • Metodi di Pruning: Pruning strutturato, pruning delle teste di attenzione
  • Vantaggio dell'Articolo: Focalizzato sullo strato di embedding, ortogonale e compatibile con metodi esistenti

Compressione Adattiva dell'Architettura

  • LoRA: Adattamento a basso rango per il fine-tuning
  • Fattorizzazione Tensoriale: Decomposizione di addestramento tensoriale e altri metodi
  • Differenza dell'Articolo: Compressione post-addestramento, senza necessità di riaddestrament

Compressione dello Strato di Embedding

  • TensorGPT: Basato su decomposizione di addestramento tensoriale, ma la natura lineare limita le prestazioni ad alta compressione
  • Pruning Dinamico del Vocabolario: Richiede fine-tuning, scarsa generalizzazione
  • Contributo dell'Articolo: Primo metodo efficiente di compressione post-addestramento dello strato di embedding

Conclusioni e Discussione

Conclusioni Principali

  1. CARVQ raggiunge una velocità di compressione media di 1,6 bit, significativamente superiore al limite inferiore di 3 bit della quantizzazione scalare
  2. Il metodo presenta buona compatibilità hardware, richiedendo solo supporto per tipi di dati a 4 bit e 16 bit
  3. Ortogonale e compatibile con metodi di quantizzazione transformer esistenti, integrabile senza problemi

Limitazioni

  1. Ambito di Applicabilità: Principalmente applicabile a modelli di piccole dimensioni; nei modelli di grandi dimensioni la proporzione dello strato di embedding è relativamente piccola
  2. Complessità Computazionale: Non può essere applicato direttamente agli strati transformer con attivazioni continue
  3. Informazioni Semantiche: Potrebbe perdere informazioni semantiche a grana fine, influenzando compiti che dipendono da rappresentazioni sottili
  4. Propagazione dell'Errore: La combinazione con compressione transformer eccessivamente lossy potrebbe influenzare la robustezza complessiva

Direzioni Future

  1. Estensione dell'applicazione a modelli di scala più grande
  2. Ricerca dell'integrazione profonda con altre tecniche di compressione
  3. Sviluppo di accelerazione hardware specializzata per operazioni di tabella di ricerca
  4. Esplorazione di metodi di compressione che preservano la struttura semantica

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Prima combinazione di adattatore correttivo e RVQ gruppale, risolvendo il problema della compressione dello strato di embedding
  2. Alto Valore Pratico: Affronta le esigenze pratiche di distribuzione su dispositivi edge, con valore di applicazione diretta
  3. Sperimentazione Completa: Valutazione completa su 7 modelli e 4 categorie di compiti
  4. Facilità di Ingegneria: Buona compatibilità hardware, facile da distribuire

Insufficienze

  1. Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché questa combinazione sia efficace
  2. Ambito di Applicabilità Limitato: Principalmente per modelli di piccole dimensioni, con vantaggi non evidenti per modelli di grandi dimensioni
  3. Impatto a Lungo Termine Sconosciuto: L'impatto su compiti downstream come fine-tuning e apprendimento continuo richiede ulteriore ricerca

Impatto

  1. Contributo Tecnico: Fornisce un nuovo percorso tecnico per la distribuzione di LLM su dispositivi edge
  2. Valore Industriale: Significativo per la distribuzione di LLM su dispositivi mobili e IoT
  3. Ispirazione per la Ricerca: Potrebbe catalizzare ulteriori ricerche sulla compressione dello strato di embedding e progettazione di adattatori

Scenari di Applicabilità

  1. Calcolo Edge: Dispositivi mobili e IoT con memoria limitata
  2. Applicazioni in Tempo Reale: Sistemi di dialogo e sistemi di raccomandazione che richiedono risposta rapida
  3. Scenari Sensibili ai Costi: Applicazioni che richiedono la distribuzione di LLM su risorse hardware limitate

Bibliografia

  1. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
  2. Hu et al. (2022). LoRA: Low-rank adaptation of large language models
  3. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
  4. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

Valutazione Complessiva: Questo è un articolo tecnico di alta qualità orientato alle esigenze pratiche di distribuzione, che propone il metodo CARVQ rappresentando un'importante innovazione nel campo della compressione dello strato di embedding, fornendo una soluzione efficace per la distribuzione di LLM su dispositivi edge. Nonostante alcune limitazioni, la sua innovatività, praticità e valore ingegneristico lo rendono un importante contributo al settore.