2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.

Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.

academic

CARVQ: Adattatore Correttivo con Quantizzazione Vettoriale Residua Gruppale per la Compressione degli Embedding di LLM

Informazioni Fondamentali

ID Articolo: 2510.12721
Titolo: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
Autori: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
Istituzione: LG Electronics USA
Classificazione: cs.LG
Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.12721v1

Riassunto

I modelli linguistici di grandi dimensioni (LLM) dipendono tipicamente da un numero elevato di parametri per gli embedding dei token, determinando enormi requisiti di archiviazione e consumo di memoria. In particolare, gli LLM distribuiti su dispositivi edge sono limitati dalla memoria; la compressione dello strato di embedding non solo riduce il consumo di memoria, ma accelera anche l'inferenza. A questo scopo, il presente articolo propone CARVQ, un nuovo metodo post-addestramento che combina un adattatore correttivo con quantizzazione vettoriale residua gruppale. CARVQ si basa su una combinazione di mappature lineari e non lineari per imitare gli embedding del modello originale, raggiungendo una compressione a circa 1,6 bit per parametro senza richiedere supporto hardware specializzato per l'archiviazione a bassa precisione. Il metodo è stato testato su molteplici LLM pre-addestrati e valutato su compiti generativi, discriminativi, matematici e di ragionamento, dimostrando che CARVQ raggiunge una larghezza di banda media per parametro inferiore mantenendo perplexity e accuratezza ragionevoli.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: Lo strato di embedding dei modelli linguistici di grandi dimensioni consuma una quantità significativa di memoria, diventando un collo di bottiglia prestazionale soprattutto nella distribuzione su dispositivi edge
Esigenza Pratica: Distribuzione efficiente di LLM su dispositivi edge con memoria limitata
Sfida Tecnica: I metodi di quantizzazione esistenti mostrano un degrado prestazionale drastico a larghezze di banda estremamente basse e richiedono hardware specializzato

Importanza del Problema

Problema dell'Occupazione di Memoria: Quando gli strati transformer vengono quantizzati, l'occupazione relativa di memoria dello strato di embedding aumenta significativamente (ad esempio, il 52,06% nel modello INT4 di LLaMA-3.2-1B)
Esigenza del Calcolo Edge: La memoria dei dispositivi edge è tipicamente limitata a pochi GB; il risparmio di 0,5 GB di memoria può supportare 2 miliardi di parametri aggiuntivi a 4 bit o contesti più lunghi
Compatibilità Hardware: I metodi di quantizzazione a bassa precisione esistenti richiedono supporto hardware specializzato, limitando la flessibilità di distribuzione

Limitazioni dei Metodi Esistenti

Quantizzazione Scalare: Mostra degrado prestazionale drastico al di sotto di 2 bit e richiede supporto hardware speciale
Addestramento Consapevole della Quantizzazione (QAT): Richiede dati di addestramento originali e notevoli risorse computazionali per il riaddestrament
Metodi di Compressione degli Embedding Esistenti: Metodi lineari come TensorGPT mostrano perdita di precisione significativa ad alti rapporti di compressione

Contributi Fondamentali

Proposta del Metodo CARVQ: Nuova tecnica di compressione post-addestramento che combina adattatore correttivo e quantizzazione vettoriale residua gruppale, senza richiedere hardware specializzato
Compressione a Larghezza di Banda Estremamente Bassa: Mantiene prestazioni ragionevoli con una velocità di compressione media di 1,6 bit per parametro, mentre la quantizzazione scalare fallisce al di sotto di 3 bit
Compatibilità Hardware: Compatibile con i metodi di quantizzazione dello strato transformer esistenti, utilizzando solo tipi di dati a 4 bit e 16 bit
Validazione Ampia: Validazione su 7 modelli pre-addestrati di diverse dimensioni, coprendo quattro categorie di compiti: generativi, discriminativi, matematici e di ragionamento

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Matrice di embedding $M \in \mathbb{R}^{V \times n}$ dell'LLM pre-addestrato, dove $V$ è la dimensione del vocabolario e $n$ è la dimensione dell'embedding Output: Rappresentazione di embedding compresso, inclusa tabella di ricerca quantizzata e adattatore correttivo Obiettivo: Minimizzare l'errore di ricostruzione raggiungendo il massimo rapporto di compressione

Architettura del Modello

1. Quantizzazione Vettoriale Residua Gruppale (Group RVQ)

Rimodellamento della Matrice: Rimodellamento della matrice di embedding in $M' \in \mathbb{R}^{nV/h \times h}$ , dove $h$ è la dimensione del sottovettore
Operazione di Raggruppamento: Divisione di $M'$ in $nV/gh$ gruppi, ciascuno di dimensione $g \times h$
Quantizzazione Iterativa: Applicazione di $L$ iterazioni di RVQ a ogni gruppo, utilizzando codebook con $2^κ$ centroidi per iterazione
Modalità di Archiviazione: I codebook vengono archiviati con precisione originale $p$ bit, gli indici con $κ$ bit

2. Adattatore Correttivo (Corrective Adaptor)

Principio di Progettazione: Strategia di contrazione-espansione per ridurre il numero di parametri

Mappatura di Contrazione: $\sigma_0: W \rightarrow \mathbb{R}^m$ , che mappa i token a vettori di piccola dimensione ( $m \ll n$ )
Mappatura di Espansione: $\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n$ , che espande alla dimensione originale attraverso un perceptron multistrato

Struttura MLP: $\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1}$ dove $h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)$ , $h_L(x) = W_L \cdot x + b_L$

3. Framework Complessivo di CARVQ

Strategia di Combinazione: Embedding finale = output di Group RVQ + output dell'adattatore correttivo Obiettivo di Addestramento: Minimizzazione dell'errore di ricostruzione L1 $\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1$

Punti di Innovazione Tecnica

Meccanismo di Compensazione Non Lineare: L'adattatore correttivo compensa l'errore di quantizzazione di RVQ attraverso mappature non lineari
Progettazione Hardware-Friendly: Utilizza solo tipi di dati a 4 bit e 16 bit, compatibile con hardware esistente
Efficienza Parametrica: Il numero di parametri dell'adattatore correttivo è significativamente inferiore a RVQ, con il rapporto di compressione complessivo dominato da RVQ
Caratteristica Post-Addestramento: Non richiede riaddestrament, applicabile direttamente a modelli pre-addestrati

Analisi del Rapporto di Compressione

Larghezza di Banda Media per Parametro: $B_{CARVQ} = B_{CA} + B_{RVQ}$ dove: $B_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}$ $B_{CA} = p \times \frac{N_P}{nV}$

Configurazione Sperimentale

Dataset

Compiti Generativi: Valutazione della perplexity su WikiText-2
Compiti Discriminativi: HellaSwag, WinoGrande, PIQA
Compiti Matematici: GSM8K
Compiti di Ragionamento: ARC Challenge, ARC Easy

Metriche di Valutazione

Perplexity: Misura della qualità generativa
Accuratezza: Prestazioni su compiti discriminativi e di ragionamento
Larghezza di Banda Media per Parametro: Indicatore di efficienza di compressione
Risparmio di Memoria: Beneficio di distribuzione pratica

Metodi di Confronto

Quantizzazione Scalare: Quantizzazione standard INT4, INT3, INT2
Quantizzazione AWQ: Quantizzazione dei pesi consapevole dell'attivazione
Esperimenti di Ablazione: CA + quantizzazione scalare vs CARVQ

Dettagli di Implementazione

Iperparametri: $[m_1, m_2, m_3] = [16, 384, 512]$ , $κ=4$ , $h=8$ , $g=1024$
Addestramento: Ottimizzatore Adam, tasso di apprendimento 1e-3, 500 iterazioni
Hardware: RTX 4090, tempo di addestramento circa 2 minuti

Risultati Sperimentali

Risultati Principali

Prestazioni su Compiti Generativi

Metodo	Larghezza di Banda Media	Aumento di Perplexity
CARVQ-4	3.155	0.238
CARVQ-3	2.405	0.532
CARVQ-2	1.655	3.544
INT3	3.0	0.750
INT2	2.0	83.88

Prestazioni su Compiti Discriminativi

CARVQ-3: Diminuzione media di accuratezza del 0,70%
CARVQ-2: Diminuzione media di accuratezza del 2,75%
INT2: Diminuzione media di accuratezza dell'8,23%

Esperimenti di Ablazione

Confronto RVQ vs Quantizzazione Scalare:

CARVQ-2 (1.655 bit): Perplexity WikiText-2 di 16.34
CA+INT1 (1.155 bit): Perplexity WikiText-2 di 14528
Dimostra il vantaggio significativo di RVQ rispetto alla quantizzazione scalare

Verifica di Compatibilità

Combinazione con AWQ:

LLaMA-3.2-3B: Aumento di perplexity CARVQ-3+AWQ di soli 0.95
Qwen2.5-3B: Aumento di perplexity CARVQ-3+AWQ di soli 0.30
Dimostra buona compatibilità con metodi di quantizzazione esistenti

Scoperte Sperimentali

Effetto della Dimensione del Modello: Modelli più grandi sono più robusti alla quantizzazione dello strato di embedding
Sensibilità ai Compiti: I compiti matematici sono più sensibili alla compressione, mentre i compiti di ragionamento sono relativamente robusti
Configurazione Ottimale: CARVQ-3 raggiunge il miglior equilibrio tra rapporto di compressione e prestazioni

Lavori Correlati

Compressione che Preserva l'Architettura

Metodi di Quantizzazione: Quantizzazione consapevole dell'attivazione come AWQ, SmoothQuant
Metodi di Pruning: Pruning strutturato, pruning delle teste di attenzione
Vantaggio dell'Articolo: Focalizzato sullo strato di embedding, ortogonale e compatibile con metodi esistenti

Compressione Adattiva dell'Architettura

LoRA: Adattamento a basso rango per il fine-tuning
Fattorizzazione Tensoriale: Decomposizione di addestramento tensoriale e altri metodi
Differenza dell'Articolo: Compressione post-addestramento, senza necessità di riaddestrament

Compressione dello Strato di Embedding

TensorGPT: Basato su decomposizione di addestramento tensoriale, ma la natura lineare limita le prestazioni ad alta compressione
Pruning Dinamico del Vocabolario: Richiede fine-tuning, scarsa generalizzazione
Contributo dell'Articolo: Primo metodo efficiente di compressione post-addestramento dello strato di embedding

Conclusioni e Discussione

Conclusioni Principali

CARVQ raggiunge una velocità di compressione media di 1,6 bit, significativamente superiore al limite inferiore di 3 bit della quantizzazione scalare
Il metodo presenta buona compatibilità hardware, richiedendo solo supporto per tipi di dati a 4 bit e 16 bit
Ortogonale e compatibile con metodi di quantizzazione transformer esistenti, integrabile senza problemi

Limitazioni

Ambito di Applicabilità: Principalmente applicabile a modelli di piccole dimensioni; nei modelli di grandi dimensioni la proporzione dello strato di embedding è relativamente piccola
Complessità Computazionale: Non può essere applicato direttamente agli strati transformer con attivazioni continue
Informazioni Semantiche: Potrebbe perdere informazioni semantiche a grana fine, influenzando compiti che dipendono da rappresentazioni sottili
Propagazione dell'Errore: La combinazione con compressione transformer eccessivamente lossy potrebbe influenzare la robustezza complessiva

Direzioni Future

Estensione dell'applicazione a modelli di scala più grande
Ricerca dell'integrazione profonda con altre tecniche di compressione
Sviluppo di accelerazione hardware specializzata per operazioni di tabella di ricerca
Esplorazione di metodi di compressione che preservano la struttura semantica

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Prima combinazione di adattatore correttivo e RVQ gruppale, risolvendo il problema della compressione dello strato di embedding
Alto Valore Pratico: Affronta le esigenze pratiche di distribuzione su dispositivi edge, con valore di applicazione diretta
Sperimentazione Completa: Valutazione completa su 7 modelli e 4 categorie di compiti
Facilità di Ingegneria: Buona compatibilità hardware, facile da distribuire

Insufficienze

Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché questa combinazione sia efficace
Ambito di Applicabilità Limitato: Principalmente per modelli di piccole dimensioni, con vantaggi non evidenti per modelli di grandi dimensioni
Impatto a Lungo Termine Sconosciuto: L'impatto su compiti downstream come fine-tuning e apprendimento continuo richiede ulteriore ricerca

Impatto

Contributo Tecnico: Fornisce un nuovo percorso tecnico per la distribuzione di LLM su dispositivi edge
Valore Industriale: Significativo per la distribuzione di LLM su dispositivi mobili e IoT
Ispirazione per la Ricerca: Potrebbe catalizzare ulteriori ricerche sulla compressione dello strato di embedding e progettazione di adattatori

Scenari di Applicabilità

Calcolo Edge: Dispositivi mobili e IoT con memoria limitata
Applicazioni in Tempo Reale: Sistemi di dialogo e sistemi di raccomandazione che richiedono risposta rapida
Scenari Sensibili ai Costi: Applicazioni che richiedono la distribuzione di LLM su risorse hardware limitate

Bibliografia

Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
Hu et al. (2022). LoRA: Low-rank adaptation of large language models
Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

Valutazione Complessiva: Questo è un articolo tecnico di alta qualità orientato alle esigenze pratiche di distribuzione, che propone il metodo CARVQ rappresentando un'importante innovazione nel campo della compressione dello strato di embedding, fornendo una soluzione efficace per la distribuzione di LLM su dispositivi edge. Nonostante alcune limitazioni, la sua innovatività, praticità e valore ingegneristico lo rendono un importante contributo al settore.