Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
- ID Articolo: 2510.12721
- Titolo: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
- Autori: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
- Istituzione: LG Electronics USA
- Classificazione: cs.LG
- Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
- Link dell'Articolo: https://arxiv.org/abs/2510.12721v1
I modelli linguistici di grandi dimensioni (LLM) dipendono tipicamente da un numero elevato di parametri per gli embedding dei token, determinando enormi requisiti di archiviazione e consumo di memoria. In particolare, gli LLM distribuiti su dispositivi edge sono limitati dalla memoria; la compressione dello strato di embedding non solo riduce il consumo di memoria, ma accelera anche l'inferenza. A questo scopo, il presente articolo propone CARVQ, un nuovo metodo post-addestramento che combina un adattatore correttivo con quantizzazione vettoriale residua gruppale. CARVQ si basa su una combinazione di mappature lineari e non lineari per imitare gli embedding del modello originale, raggiungendo una compressione a circa 1,6 bit per parametro senza richiedere supporto hardware specializzato per l'archiviazione a bassa precisione. Il metodo è stato testato su molteplici LLM pre-addestrati e valutato su compiti generativi, discriminativi, matematici e di ragionamento, dimostrando che CARVQ raggiunge una larghezza di banda media per parametro inferiore mantenendo perplexity e accuratezza ragionevoli.
- Problema Centrale: Lo strato di embedding dei modelli linguistici di grandi dimensioni consuma una quantità significativa di memoria, diventando un collo di bottiglia prestazionale soprattutto nella distribuzione su dispositivi edge
- Esigenza Pratica: Distribuzione efficiente di LLM su dispositivi edge con memoria limitata
- Sfida Tecnica: I metodi di quantizzazione esistenti mostrano un degrado prestazionale drastico a larghezze di banda estremamente basse e richiedono hardware specializzato
- Problema dell'Occupazione di Memoria: Quando gli strati transformer vengono quantizzati, l'occupazione relativa di memoria dello strato di embedding aumenta significativamente (ad esempio, il 52,06% nel modello INT4 di LLaMA-3.2-1B)
- Esigenza del Calcolo Edge: La memoria dei dispositivi edge è tipicamente limitata a pochi GB; il risparmio di 0,5 GB di memoria può supportare 2 miliardi di parametri aggiuntivi a 4 bit o contesti più lunghi
- Compatibilità Hardware: I metodi di quantizzazione a bassa precisione esistenti richiedono supporto hardware specializzato, limitando la flessibilità di distribuzione
- Quantizzazione Scalare: Mostra degrado prestazionale drastico al di sotto di 2 bit e richiede supporto hardware speciale
- Addestramento Consapevole della Quantizzazione (QAT): Richiede dati di addestramento originali e notevoli risorse computazionali per il riaddestrament
- Metodi di Compressione degli Embedding Esistenti: Metodi lineari come TensorGPT mostrano perdita di precisione significativa ad alti rapporti di compressione
- Proposta del Metodo CARVQ: Nuova tecnica di compressione post-addestramento che combina adattatore correttivo e quantizzazione vettoriale residua gruppale, senza richiedere hardware specializzato
- Compressione a Larghezza di Banda Estremamente Bassa: Mantiene prestazioni ragionevoli con una velocità di compressione media di 1,6 bit per parametro, mentre la quantizzazione scalare fallisce al di sotto di 3 bit
- Compatibilità Hardware: Compatibile con i metodi di quantizzazione dello strato transformer esistenti, utilizzando solo tipi di dati a 4 bit e 16 bit
- Validazione Ampia: Validazione su 7 modelli pre-addestrati di diverse dimensioni, coprendo quattro categorie di compiti: generativi, discriminativi, matematici e di ragionamento
Input: Matrice di embedding M∈RV×n dell'LLM pre-addestrato, dove V è la dimensione del vocabolario e n è la dimensione dell'embedding
Output: Rappresentazione di embedding compresso, inclusa tabella di ricerca quantizzata e adattatore correttivo
Obiettivo: Minimizzare l'errore di ricostruzione raggiungendo il massimo rapporto di compressione
- Rimodellamento della Matrice: Rimodellamento della matrice di embedding in M′∈RnV/h×h, dove h è la dimensione del sottovettore
- Operazione di Raggruppamento: Divisione di M′ in nV/gh gruppi, ciascuno di dimensione g×h
- Quantizzazione Iterativa: Applicazione di L iterazioni di RVQ a ogni gruppo, utilizzando codebook con 2κ centroidi per iterazione
- Modalità di Archiviazione: I codebook vengono archiviati con precisione originale p bit, gli indici con κ bit
Principio di Progettazione: Strategia di contrazione-espansione per ridurre il numero di parametri
- Mappatura di Contrazione: σ0:W→Rm, che mappa i token a vettori di piccola dimensione (m≪n)
- Mappatura di Espansione: σ1:Rm→Rn, che espande alla dimensione originale attraverso un perceptron multistrato
Struttura MLP:
σ1=hL∘hNLk∘⋯∘hNL1
dove hNLi(x)=ReLU(Wi⋅x+bi), hL(x)=WL⋅x+bL
Strategia di Combinazione: Embedding finale = output di Group RVQ + output dell'adattatore correttivo
Obiettivo di Addestramento: Minimizzazione dell'errore di ricostruzione L1
L=∑i=1V∣∣Mi−(RVQ(Mi)+σ1(σ0(Ti)))∣∣1
- Meccanismo di Compensazione Non Lineare: L'adattatore correttivo compensa l'errore di quantizzazione di RVQ attraverso mappature non lineari
- Progettazione Hardware-Friendly: Utilizza solo tipi di dati a 4 bit e 16 bit, compatibile con hardware esistente
- Efficienza Parametrica: Il numero di parametri dell'adattatore correttivo è significativamente inferiore a RVQ, con il rapporto di compressione complessivo dominato da RVQ
- Caratteristica Post-Addestramento: Non richiede riaddestrament, applicabile direttamente a modelli pre-addestrati
Larghezza di Banda Media per Parametro:
BCARVQ=BCA+BRVQ
dove:
BRVQ=p×gh×pLh2κ×p+gLκBCA=p×nVNP
- Compiti Generativi: Valutazione della perplexity su WikiText-2
- Compiti Discriminativi: HellaSwag, WinoGrande, PIQA
- Compiti Matematici: GSM8K
- Compiti di Ragionamento: ARC Challenge, ARC Easy
- Perplexity: Misura della qualità generativa
- Accuratezza: Prestazioni su compiti discriminativi e di ragionamento
- Larghezza di Banda Media per Parametro: Indicatore di efficienza di compressione
- Risparmio di Memoria: Beneficio di distribuzione pratica
- Quantizzazione Scalare: Quantizzazione standard INT4, INT3, INT2
- Quantizzazione AWQ: Quantizzazione dei pesi consapevole dell'attivazione
- Esperimenti di Ablazione: CA + quantizzazione scalare vs CARVQ
- Iperparametri: [m1,m2,m3]=[16,384,512], κ=4, h=8, g=1024
- Addestramento: Ottimizzatore Adam, tasso di apprendimento 1e-3, 500 iterazioni
- Hardware: RTX 4090, tempo di addestramento circa 2 minuti
| Metodo | Larghezza di Banda Media | Aumento di Perplexity |
|---|
| CARVQ-4 | 3.155 | 0.238 |
| CARVQ-3 | 2.405 | 0.532 |
| CARVQ-2 | 1.655 | 3.544 |
| INT3 | 3.0 | 0.750 |
| INT2 | 2.0 | 83.88 |
- CARVQ-3: Diminuzione media di accuratezza del 0,70%
- CARVQ-2: Diminuzione media di accuratezza del 2,75%
- INT2: Diminuzione media di accuratezza dell'8,23%
Confronto RVQ vs Quantizzazione Scalare:
- CARVQ-2 (1.655 bit): Perplexity WikiText-2 di 16.34
- CA+INT1 (1.155 bit): Perplexity WikiText-2 di 14528
- Dimostra il vantaggio significativo di RVQ rispetto alla quantizzazione scalare
Combinazione con AWQ:
- LLaMA-3.2-3B: Aumento di perplexity CARVQ-3+AWQ di soli 0.95
- Qwen2.5-3B: Aumento di perplexity CARVQ-3+AWQ di soli 0.30
- Dimostra buona compatibilità con metodi di quantizzazione esistenti
- Effetto della Dimensione del Modello: Modelli più grandi sono più robusti alla quantizzazione dello strato di embedding
- Sensibilità ai Compiti: I compiti matematici sono più sensibili alla compressione, mentre i compiti di ragionamento sono relativamente robusti
- Configurazione Ottimale: CARVQ-3 raggiunge il miglior equilibrio tra rapporto di compressione e prestazioni
- Metodi di Quantizzazione: Quantizzazione consapevole dell'attivazione come AWQ, SmoothQuant
- Metodi di Pruning: Pruning strutturato, pruning delle teste di attenzione
- Vantaggio dell'Articolo: Focalizzato sullo strato di embedding, ortogonale e compatibile con metodi esistenti
- LoRA: Adattamento a basso rango per il fine-tuning
- Fattorizzazione Tensoriale: Decomposizione di addestramento tensoriale e altri metodi
- Differenza dell'Articolo: Compressione post-addestramento, senza necessità di riaddestrament
- TensorGPT: Basato su decomposizione di addestramento tensoriale, ma la natura lineare limita le prestazioni ad alta compressione
- Pruning Dinamico del Vocabolario: Richiede fine-tuning, scarsa generalizzazione
- Contributo dell'Articolo: Primo metodo efficiente di compressione post-addestramento dello strato di embedding
- CARVQ raggiunge una velocità di compressione media di 1,6 bit, significativamente superiore al limite inferiore di 3 bit della quantizzazione scalare
- Il metodo presenta buona compatibilità hardware, richiedendo solo supporto per tipi di dati a 4 bit e 16 bit
- Ortogonale e compatibile con metodi di quantizzazione transformer esistenti, integrabile senza problemi
- Ambito di Applicabilità: Principalmente applicabile a modelli di piccole dimensioni; nei modelli di grandi dimensioni la proporzione dello strato di embedding è relativamente piccola
- Complessità Computazionale: Non può essere applicato direttamente agli strati transformer con attivazioni continue
- Informazioni Semantiche: Potrebbe perdere informazioni semantiche a grana fine, influenzando compiti che dipendono da rappresentazioni sottili
- Propagazione dell'Errore: La combinazione con compressione transformer eccessivamente lossy potrebbe influenzare la robustezza complessiva
- Estensione dell'applicazione a modelli di scala più grande
- Ricerca dell'integrazione profonda con altre tecniche di compressione
- Sviluppo di accelerazione hardware specializzata per operazioni di tabella di ricerca
- Esplorazione di metodi di compressione che preservano la struttura semantica
- Forte Innovatività: Prima combinazione di adattatore correttivo e RVQ gruppale, risolvendo il problema della compressione dello strato di embedding
- Alto Valore Pratico: Affronta le esigenze pratiche di distribuzione su dispositivi edge, con valore di applicazione diretta
- Sperimentazione Completa: Valutazione completa su 7 modelli e 4 categorie di compiti
- Facilità di Ingegneria: Buona compatibilità hardware, facile da distribuire
- Analisi Teorica Insufficiente: Manca un'analisi teorica approfondita del perché questa combinazione sia efficace
- Ambito di Applicabilità Limitato: Principalmente per modelli di piccole dimensioni, con vantaggi non evidenti per modelli di grandi dimensioni
- Impatto a Lungo Termine Sconosciuto: L'impatto su compiti downstream come fine-tuning e apprendimento continuo richiede ulteriore ricerca
- Contributo Tecnico: Fornisce un nuovo percorso tecnico per la distribuzione di LLM su dispositivi edge
- Valore Industriale: Significativo per la distribuzione di LLM su dispositivi mobili e IoT
- Ispirazione per la Ricerca: Potrebbe catalizzare ulteriori ricerche sulla compressione dello strato di embedding e progettazione di adattatori
- Calcolo Edge: Dispositivi mobili e IoT con memoria limitata
- Applicazioni in Tempo Reale: Sistemi di dialogo e sistemi di raccomandazione che richiedono risposta rapida
- Scenari Sensibili ai Costi: Applicazioni che richiedono la distribuzione di LLM su risorse hardware limitate
- Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
- Hu et al. (2022). LoRA: Low-rank adaptation of large language models
- Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
- Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models
Valutazione Complessiva: Questo è un articolo tecnico di alta qualità orientato alle esigenze pratiche di distribuzione, che propone il metodo CARVQ rappresentando un'importante innovazione nel campo della compressione dello strato di embedding, fornendo una soluzione efficace per la distribuzione di LLM su dispositivi edge. Nonostante alcune limitazioni, la sua innovatività, praticità e valore ingegneristico lo rendono un importante contributo al settore.