2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.

Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.

academic

CARVQ : Adaptateur Correctif avec Quantification Vectorielle Résiduelle Groupée pour la Compression d'Embeddings de LLM

Informations Fondamentales

ID de l'article: 2510.12721
Titre: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
Auteurs: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
Institution: LG Electronics USA
Classification: cs.LG
Date de publication: 14 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.12721v1

Résumé

Les grands modèles de langage (LLMs) dépendent généralement d'un grand nombre de paramètres pour l'embedding de tokens, ce qui entraîne d'énormes besoins en stockage et en consommation mémoire. En particulier, les LLMs déployés sur des appareils périphériques sont limités par la mémoire. La compression de la couche d'embedding pour réduire la consommation mémoire non seulement libère la bande passante mémoire, mais accélère également l'inférence. À cette fin, cet article propose CARVQ, une nouvelle méthode post-entraînement combinant un adaptateur correctif avec une quantification vectorielle résiduelle groupée. CARVQ repose sur une combinaison de mappages linéaires et non-linéaires imitant les embeddings du modèle original, permettant une compression jusqu'à environ 1,6 bits par paramètre sans nécessiter de support matériel spécialisé pour le stockage à faible précision. La méthode est testée sur plusieurs LLMs pré-entraînés et évaluée sur des tâches de génération, discrimination, mathématiques et raisonnement, démontrant que CARVQ peut atteindre une largeur de bits moyenne par paramètre inférieure tout en maintenant une perplexité et une précision raisonnables.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central: La couche d'embedding des grands modèles de langage consomme une grande quantité de mémoire, devenant un goulot d'étranglement de performance, particulièrement lors du déploiement sur des appareils périphériques
Besoins pratiques: Déploiement efficace des LLMs sur des appareils périphériques à mémoire limitée
Défis techniques: Les méthodes de quantification existantes présentent une dégradation drastique des performances à très faible précision et nécessitent un support matériel spécialisé

Importance du Problème

Problème de proportion mémoire: Lorsque les couches transformer sont quantifiées, la proportion relative de mémoire occupée par la couche d'embedding augmente considérablement (par exemple, 52,06% dans le modèle INT4 de LLaMA-3.2-1B)
Besoins du calcul périphérique: La mémoire des appareils périphériques est généralement limitée à quelques gigaoctets. Économiser 0,5 Go de mémoire peut supporter 2 milliards de paramètres supplémentaires en 4 bits ou un contexte plus long
Compatibilité matérielle: Les méthodes de quantification à faible précision existantes nécessitent un support matériel spécialisé, limitant la flexibilité du déploiement

Limitations des Méthodes Existantes

Quantification scalaire: Les performances se dégradent drastiquement en dessous de 2 bits et nécessitent un support matériel spécial
Entraînement conscient de la quantification (QAT): Nécessite les données d'entraînement originales et des ressources de calcul importantes pour le réentraînement
Méthodes de compression d'embedding existantes: Les méthodes linéaires comme TensorGPT subissent une perte de précision importante à des taux de compression élevés

Contributions Principales

Proposition de la méthode CARVQ: Nouvelle technique de compression post-entraînement combinant un adaptateur correctif et une quantification vectorielle résiduelle groupée, sans nécessiter de support matériel spécialisé
Compression à très faible précision: Maintien d'une performance raisonnable avec un taux de compression de 1,6 bits par paramètre en moyenne, tandis que la quantification scalaire échoue en dessous de 3 bits
Compatibilité matérielle: Compatible avec les méthodes de quantification des couches transformer existantes, utilisant uniquement les types de données 4 bits et 16 bits
Validation étendue: Vérification sur 7 modèles pré-entraînés de différentes tailles, couvrant quatre catégories de tâches : génération, discrimination, mathématiques et raisonnement

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Matrice d'embedding $M \in \mathbb{R}^{V \times n}$ du LLM pré-entraîné, où $V$ est la taille du vocabulaire et $n$ est la dimension d'embedding Sortie: Représentation d'embedding compressée, incluant la table de consultation quantifiée et l'adaptateur correctif Objectif: Minimiser l'erreur de reconstruction tout en maximisant le taux de compression

Architecture du Modèle

1. Quantification Vectorielle Résiduelle Groupée (Group RVQ)

Remodelage matriciel: Remodelage de la matrice d'embedding en $M' \in \mathbb{R}^{nV/h \times h}$ , où $h$ est la dimension du sous-vecteur
Opération de groupage: Division de $M'$ en $nV/gh$ groupes, chaque groupe de taille $g \times h$
Quantification itérative: Application de $L$ itérations de RVQ à chaque groupe, chaque itération utilisant un codebook de $2^κ$ centroïdes
Mode de stockage: Les codebooks sont stockés à la précision originale $p$ bits, les indices à $κ$ bits

2. Adaptateur Correctif (Corrective Adaptor)

Principe de conception: Stratégie de contraction-expansion pour réduire le nombre de paramètres

Mapping de contraction: $\sigma_0: W \rightarrow \mathbb{R}^m$ , mappant les tokens à des vecteurs de petite dimension ( $m \ll n$ )
Mapping d'expansion: $\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n$ , expansion vers la dimension originale via un perceptron multicouche

Structure MLP: $\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1}$ où $h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)$ , $h_L(x) = W_L \cdot x + b_L$

3. Cadre Global de CARVQ

Stratégie de combinaison: Embedding final = Sortie Group RVQ + Sortie adaptateur correctif Objectif d'entraînement: Minimisation de l'erreur de reconstruction L1 $\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1$

Points d'Innovation Technique

Mécanisme de compensation non-linéaire: L'adaptateur correctif compense l'erreur de quantification du RVQ via un mapping non-linéaire
Conception matériel-friendly: Utilisation uniquement des types de données 4 bits et 16 bits, compatible avec le matériel existant
Efficacité paramétrique: Le nombre de paramètres de l'adaptateur correctif est bien inférieur au RVQ, le taux de compression global étant dominé par le RVQ
Caractéristique post-entraînement: Pas de réentraînement nécessaire, application directe aux modèles pré-entraînés

Analyse du Taux de Compression

Largeur de bits moyenne par paramètre: $B_{CARVQ} = B_{CA} + B_{RVQ}$ où: $B_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}$ $B_{CA} = p \times \frac{N_P}{nV}$

Configuration Expérimentale

Ensembles de Données

Tâches de génération: Évaluation de la perplexité sur WikiText-2
Tâches de discrimination: HellaSwag, WinoGrande, PIQA
Tâches mathématiques: GSM8K
Tâches de raisonnement: ARC Challenge, ARC Easy

Métriques d'Évaluation

Perplexité: Mesure de la qualité de génération
Précision: Performance sur les tâches de discrimination et raisonnement
Largeur de bits moyenne par paramètre: Indicateur d'efficacité de compression
Économies mémoire: Bénéfices du déploiement réel

Méthodes de Comparaison

Quantification scalaire: Quantification standard INT4, INT3, INT2
Quantification AWQ: Quantification de poids consciente de l'activation
Expériences d'ablation: CA + quantification scalaire vs CARVQ

Détails d'Implémentation

Hyperparamètres: $[m_1, m_2, m_3] = [16, 384, 512]$ , $κ=4$ , $h=8$ , $g=1024$
Entraînement: Optimiseur Adam, taux d'apprentissage 1e-3, 500 itérations
Matériel: RTX 4090, temps d'entraînement environ 2 minutes

Résultats Expérimentaux

Résultats Principaux

Performance sur les Tâches de Génération

Méthode	Largeur de bits moyenne	Augmentation de perplexité
CARVQ-4	3.155	0.238
CARVQ-3	2.405	0.532
CARVQ-2	1.655	3.544
INT3	3.0	0.750
INT2	2.0	83.88

Performance sur les Tâches de Discrimination

CARVQ-3: Baisse de précision moyenne de 0,70%
CARVQ-2: Baisse de précision moyenne de 2,75%
INT2: Baisse de précision moyenne de 8,23%

Expériences d'Ablation

Comparaison RVQ vs quantification scalaire:

CARVQ-2 (1.655 bits): Perplexité WikiText-2 de 16.34
CA+INT1 (1.155 bits): Perplexité WikiText-2 de 14528
Démontre l'avantage significatif du RVQ par rapport à la quantification scalaire

Vérification de Compatibilité

Combinaison avec AWQ:

LLaMA-3.2-3B: Augmentation de perplexité CARVQ-3+AWQ de seulement 0.95
Qwen2.5-3B: Augmentation de perplexité CARVQ-3+AWQ de seulement 0.30
Démontre une bonne compatibilité avec les méthodes de quantification existantes

Découvertes Expérimentales

Effet de la taille du modèle: Les modèles plus grands sont plus robustes à la quantification de la couche d'embedding
Sensibilité aux tâches: Les tâches mathématiques sont les plus sensibles à la compression, tandis que les tâches de raisonnement sont relativement robustes
Configuration optimale: CARVQ-3 atteint le meilleur équilibre entre taux de compression et performance

Travaux Connexes

Compression Préservant l'Architecture

Méthodes de quantification: Quantification de poids consciente de l'activation comme AWQ, SmoothQuant
Méthodes d'élagage: Élagage structuré, élagage des têtes d'attention
Avantage de cet article: Concentration sur la couche d'embedding, compatible et orthogonal aux méthodes existantes

Compression Adaptative de l'Architecture

LoRA: Adaptation de faible rang pour l'ajustement fin
Décomposition tensorielle: Décomposition de formation tensorielle et autres méthodes
Distinction de cet article: Compression post-entraînement sans réentraînement nécessaire

Compression de la Couche d'Embedding

TensorGPT: Basé sur la décomposition de formation tensorielle, mais la nature linéaire limite la performance à haute compression
Élagage dynamique du vocabulaire: Nécessite un ajustement fin, mauvaise généralisation
Contribution de cet article: Première méthode efficace de compression post-entraînement de la couche d'embedding

Conclusion et Discussion

Conclusions Principales

CARVQ atteint un taux de compression moyen de 1,6 bits, surpassant significativement la limite inférieure de 3 bits de la quantification scalaire
La méthode présente une bonne compatibilité matérielle, nécessitant uniquement le support des types de données 4 bits et 16 bits
Compatible et orthogonale aux méthodes de quantification transformer existantes, permettant une intégration transparente

Limitations

Portée d'application: Principalement applicable aux petits modèles, la proportion de la couche d'embedding étant relativement faible dans les grands modèles
Complexité computationnelle: Impossible d'appliquer directement aux couches transformer avec activations continues
Information sémantique: Peut perdre des informations sémantiques à grain fin, affectant les tâches dépendant de représentations subtiles
Propagation d'erreur: La combinaison avec une compression transformer excessivement avec perte peut affecter la robustesse globale

Directions Futures

Extension à l'application sur des modèles de plus grande taille
Recherche sur l'intégration profonde avec d'autres techniques de compression
Développement d'accélération matérielle spécialisée pour les opérations de table de consultation
Exploration de méthodes de compression préservant la structure sémantique

Évaluation Approfondie

Avantages

Innovation forte: Première combinaison d'adaptateur correctif avec RVQ groupé, résolvant le problème de compression de la couche d'embedding
Valeur pratique élevée: Répondant aux besoins réels du déploiement sur appareils périphériques, avec une valeur d'application directe
Expérimentation complète: Évaluation complète couvrant 7 modèles et 4 catégories de tâches
Convivialité d'ingénierie: Bonne compatibilité matérielle, facile à déployer

Insuffisances

Analyse théorique insuffisante: Manque d'explication théorique approfondie sur pourquoi cette combinaison est efficace
Portée d'application limitée: Principalement pour les petits modèles, avantage moins évident pour les grands modèles
Impact à long terme inconnu: L'impact sur les tâches en aval comme l'ajustement fin et l'apprentissage continu nécessite une recherche supplémentaire

Impact

Contribution technique: Fournit une nouvelle voie technologique pour le déploiement de LLM sur appareils périphériques
Valeur industrielle: Importance significative pour le déploiement de LLM sur appareils mobiles et appareils IoT
Inspiration pour la recherche: Peut catalyser davantage de recherches sur la compression de la couche d'embedding et la conception d'adaptateurs

Scénarios d'Application

Calcul périphérique: Appareils mobiles et appareils IoT à mémoire limitée
Applications en temps réel: Systèmes de dialogue, systèmes de recommandation nécessitant une réponse rapide
Scénarios sensibles aux coûts: Applications nécessitant le déploiement de LLM sur des ressources matérielles limitées

Références

Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
Hu et al. (2022). LoRA: Low-rank adaptation of large language models
Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

Évaluation Globale: Cet article est un travail technique de haute qualité répondant aux besoins réels du déploiement, proposant la méthode CARVQ qui représente une percée importante dans le domaine de la compression de la couche d'embedding, fournissant une solution efficace pour le déploiement de LLM sur appareils périphériques. Malgré certaines limitations, son innovation, son utilité pratique et sa valeur d'ingénierie en font une contribution importante au domaine.