Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
- ID de l'article: 2510.12721
- Titre: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
- Auteurs: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
- Institution: LG Electronics USA
- Classification: cs.LG
- Date de publication: 14 octobre 2025 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2510.12721v1
Les grands modèles de langage (LLMs) dépendent généralement d'un grand nombre de paramètres pour l'embedding de tokens, ce qui entraîne d'énormes besoins en stockage et en consommation mémoire. En particulier, les LLMs déployés sur des appareils périphériques sont limités par la mémoire. La compression de la couche d'embedding pour réduire la consommation mémoire non seulement libère la bande passante mémoire, mais accélère également l'inférence. À cette fin, cet article propose CARVQ, une nouvelle méthode post-entraînement combinant un adaptateur correctif avec une quantification vectorielle résiduelle groupée. CARVQ repose sur une combinaison de mappages linéaires et non-linéaires imitant les embeddings du modèle original, permettant une compression jusqu'à environ 1,6 bits par paramètre sans nécessiter de support matériel spécialisé pour le stockage à faible précision. La méthode est testée sur plusieurs LLMs pré-entraînés et évaluée sur des tâches de génération, discrimination, mathématiques et raisonnement, démontrant que CARVQ peut atteindre une largeur de bits moyenne par paramètre inférieure tout en maintenant une perplexité et une précision raisonnables.
- Problème central: La couche d'embedding des grands modèles de langage consomme une grande quantité de mémoire, devenant un goulot d'étranglement de performance, particulièrement lors du déploiement sur des appareils périphériques
- Besoins pratiques: Déploiement efficace des LLMs sur des appareils périphériques à mémoire limitée
- Défis techniques: Les méthodes de quantification existantes présentent une dégradation drastique des performances à très faible précision et nécessitent un support matériel spécialisé
- Problème de proportion mémoire: Lorsque les couches transformer sont quantifiées, la proportion relative de mémoire occupée par la couche d'embedding augmente considérablement (par exemple, 52,06% dans le modèle INT4 de LLaMA-3.2-1B)
- Besoins du calcul périphérique: La mémoire des appareils périphériques est généralement limitée à quelques gigaoctets. Économiser 0,5 Go de mémoire peut supporter 2 milliards de paramètres supplémentaires en 4 bits ou un contexte plus long
- Compatibilité matérielle: Les méthodes de quantification à faible précision existantes nécessitent un support matériel spécialisé, limitant la flexibilité du déploiement
- Quantification scalaire: Les performances se dégradent drastiquement en dessous de 2 bits et nécessitent un support matériel spécial
- Entraînement conscient de la quantification (QAT): Nécessite les données d'entraînement originales et des ressources de calcul importantes pour le réentraînement
- Méthodes de compression d'embedding existantes: Les méthodes linéaires comme TensorGPT subissent une perte de précision importante à des taux de compression élevés
- Proposition de la méthode CARVQ: Nouvelle technique de compression post-entraînement combinant un adaptateur correctif et une quantification vectorielle résiduelle groupée, sans nécessiter de support matériel spécialisé
- Compression à très faible précision: Maintien d'une performance raisonnable avec un taux de compression de 1,6 bits par paramètre en moyenne, tandis que la quantification scalaire échoue en dessous de 3 bits
- Compatibilité matérielle: Compatible avec les méthodes de quantification des couches transformer existantes, utilisant uniquement les types de données 4 bits et 16 bits
- Validation étendue: Vérification sur 7 modèles pré-entraînés de différentes tailles, couvrant quatre catégories de tâches : génération, discrimination, mathématiques et raisonnement
Entrée: Matrice d'embedding M∈RV×n du LLM pré-entraîné, où V est la taille du vocabulaire et n est la dimension d'embedding
Sortie: Représentation d'embedding compressée, incluant la table de consultation quantifiée et l'adaptateur correctif
Objectif: Minimiser l'erreur de reconstruction tout en maximisant le taux de compression
- Remodelage matriciel: Remodelage de la matrice d'embedding en M′∈RnV/h×h, où h est la dimension du sous-vecteur
- Opération de groupage: Division de M′ en nV/gh groupes, chaque groupe de taille g×h
- Quantification itérative: Application de L itérations de RVQ à chaque groupe, chaque itération utilisant un codebook de 2κ centroïdes
- Mode de stockage: Les codebooks sont stockés à la précision originale p bits, les indices à κ bits
Principe de conception: Stratégie de contraction-expansion pour réduire le nombre de paramètres
- Mapping de contraction: σ0:W→Rm, mappant les tokens à des vecteurs de petite dimension (m≪n)
- Mapping d'expansion: σ1:Rm→Rn, expansion vers la dimension originale via un perceptron multicouche
Structure MLP:
σ1=hL∘hNLk∘⋯∘hNL1
où hNLi(x)=ReLU(Wi⋅x+bi), hL(x)=WL⋅x+bL
Stratégie de combinaison: Embedding final = Sortie Group RVQ + Sortie adaptateur correctif
Objectif d'entraînement: Minimisation de l'erreur de reconstruction L1
L=∑i=1V∣∣Mi−(RVQ(Mi)+σ1(σ0(Ti)))∣∣1
- Mécanisme de compensation non-linéaire: L'adaptateur correctif compense l'erreur de quantification du RVQ via un mapping non-linéaire
- Conception matériel-friendly: Utilisation uniquement des types de données 4 bits et 16 bits, compatible avec le matériel existant
- Efficacité paramétrique: Le nombre de paramètres de l'adaptateur correctif est bien inférieur au RVQ, le taux de compression global étant dominé par le RVQ
- Caractéristique post-entraînement: Pas de réentraînement nécessaire, application directe aux modèles pré-entraînés
Largeur de bits moyenne par paramètre:
BCARVQ=BCA+BRVQ
où:
BRVQ=p×gh×pLh2κ×p+gLκBCA=p×nVNP
- Tâches de génération: Évaluation de la perplexité sur WikiText-2
- Tâches de discrimination: HellaSwag, WinoGrande, PIQA
- Tâches mathématiques: GSM8K
- Tâches de raisonnement: ARC Challenge, ARC Easy
- Perplexité: Mesure de la qualité de génération
- Précision: Performance sur les tâches de discrimination et raisonnement
- Largeur de bits moyenne par paramètre: Indicateur d'efficacité de compression
- Économies mémoire: Bénéfices du déploiement réel
- Quantification scalaire: Quantification standard INT4, INT3, INT2
- Quantification AWQ: Quantification de poids consciente de l'activation
- Expériences d'ablation: CA + quantification scalaire vs CARVQ
- Hyperparamètres: [m1,m2,m3]=[16,384,512], κ=4, h=8, g=1024
- Entraînement: Optimiseur Adam, taux d'apprentissage 1e-3, 500 itérations
- Matériel: RTX 4090, temps d'entraînement environ 2 minutes
| Méthode | Largeur de bits moyenne | Augmentation de perplexité |
|---|
| CARVQ-4 | 3.155 | 0.238 |
| CARVQ-3 | 2.405 | 0.532 |
| CARVQ-2 | 1.655 | 3.544 |
| INT3 | 3.0 | 0.750 |
| INT2 | 2.0 | 83.88 |
- CARVQ-3: Baisse de précision moyenne de 0,70%
- CARVQ-2: Baisse de précision moyenne de 2,75%
- INT2: Baisse de précision moyenne de 8,23%
Comparaison RVQ vs quantification scalaire:
- CARVQ-2 (1.655 bits): Perplexité WikiText-2 de 16.34
- CA+INT1 (1.155 bits): Perplexité WikiText-2 de 14528
- Démontre l'avantage significatif du RVQ par rapport à la quantification scalaire
Combinaison avec AWQ:
- LLaMA-3.2-3B: Augmentation de perplexité CARVQ-3+AWQ de seulement 0.95
- Qwen2.5-3B: Augmentation de perplexité CARVQ-3+AWQ de seulement 0.30
- Démontre une bonne compatibilité avec les méthodes de quantification existantes
- Effet de la taille du modèle: Les modèles plus grands sont plus robustes à la quantification de la couche d'embedding
- Sensibilité aux tâches: Les tâches mathématiques sont les plus sensibles à la compression, tandis que les tâches de raisonnement sont relativement robustes
- Configuration optimale: CARVQ-3 atteint le meilleur équilibre entre taux de compression et performance
- Méthodes de quantification: Quantification de poids consciente de l'activation comme AWQ, SmoothQuant
- Méthodes d'élagage: Élagage structuré, élagage des têtes d'attention
- Avantage de cet article: Concentration sur la couche d'embedding, compatible et orthogonal aux méthodes existantes
- LoRA: Adaptation de faible rang pour l'ajustement fin
- Décomposition tensorielle: Décomposition de formation tensorielle et autres méthodes
- Distinction de cet article: Compression post-entraînement sans réentraînement nécessaire
- TensorGPT: Basé sur la décomposition de formation tensorielle, mais la nature linéaire limite la performance à haute compression
- Élagage dynamique du vocabulaire: Nécessite un ajustement fin, mauvaise généralisation
- Contribution de cet article: Première méthode efficace de compression post-entraînement de la couche d'embedding
- CARVQ atteint un taux de compression moyen de 1,6 bits, surpassant significativement la limite inférieure de 3 bits de la quantification scalaire
- La méthode présente une bonne compatibilité matérielle, nécessitant uniquement le support des types de données 4 bits et 16 bits
- Compatible et orthogonale aux méthodes de quantification transformer existantes, permettant une intégration transparente
- Portée d'application: Principalement applicable aux petits modèles, la proportion de la couche d'embedding étant relativement faible dans les grands modèles
- Complexité computationnelle: Impossible d'appliquer directement aux couches transformer avec activations continues
- Information sémantique: Peut perdre des informations sémantiques à grain fin, affectant les tâches dépendant de représentations subtiles
- Propagation d'erreur: La combinaison avec une compression transformer excessivement avec perte peut affecter la robustesse globale
- Extension à l'application sur des modèles de plus grande taille
- Recherche sur l'intégration profonde avec d'autres techniques de compression
- Développement d'accélération matérielle spécialisée pour les opérations de table de consultation
- Exploration de méthodes de compression préservant la structure sémantique
- Innovation forte: Première combinaison d'adaptateur correctif avec RVQ groupé, résolvant le problème de compression de la couche d'embedding
- Valeur pratique élevée: Répondant aux besoins réels du déploiement sur appareils périphériques, avec une valeur d'application directe
- Expérimentation complète: Évaluation complète couvrant 7 modèles et 4 catégories de tâches
- Convivialité d'ingénierie: Bonne compatibilité matérielle, facile à déployer
- Analyse théorique insuffisante: Manque d'explication théorique approfondie sur pourquoi cette combinaison est efficace
- Portée d'application limitée: Principalement pour les petits modèles, avantage moins évident pour les grands modèles
- Impact à long terme inconnu: L'impact sur les tâches en aval comme l'ajustement fin et l'apprentissage continu nécessite une recherche supplémentaire
- Contribution technique: Fournit une nouvelle voie technologique pour le déploiement de LLM sur appareils périphériques
- Valeur industrielle: Importance significative pour le déploiement de LLM sur appareils mobiles et appareils IoT
- Inspiration pour la recherche: Peut catalyser davantage de recherches sur la compression de la couche d'embedding et la conception d'adaptateurs
- Calcul périphérique: Appareils mobiles et appareils IoT à mémoire limitée
- Applications en temps réel: Systèmes de dialogue, systèmes de recommandation nécessitant une réponse rapide
- Scénarios sensibles aux coûts: Applications nécessitant le déploiement de LLM sur des ressources matérielles limitées
- Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
- Hu et al. (2022). LoRA: Low-rank adaptation of large language models
- Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
- Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models
Évaluation Globale: Cet article est un travail technique de haute qualité répondant aux besoins réels du déploiement, proposant la méthode CARVQ qui représente une percée importante dans le domaine de la compression de la couche d'embedding, fournissant une solution efficace pour le déploiement de LLM sur appareils périphériques. Malgré certaines limitations, son innovation, son utilité pratique et sa valeur d'ingénierie en font une contribution importante au domaine.