Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
- ID del Artículo: 2510.12721
- Título: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
- Autores: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
- Institución: LG Electronics USA
- Clasificación: cs.LG
- Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.12721v1
Los modelos de lenguaje grandes (LLMs) típicamente dependen de una gran cantidad de parámetros para las incrustaciones de tokens, lo que resulta en enormes requisitos de almacenamiento y consumo de memoria. Particularmente, los LLMs implementados en dispositivos periféricos están limitados por memoria; la compresión de la capa de incrustación no solo libera ancho de banda de memoria sino que también acelera la inferencia. Por lo tanto, este artículo propone CARVQ, un método novedoso de post-entrenamiento que combina un adaptador correctivo con cuantización de vectores residuales agrupados. CARVQ depende de una combinación de mapeos lineales y no lineales que imitan las incrustaciones del modelo original, logrando compresión a aproximadamente 1.6 bits sin requerir soporte de hardware especializado para almacenamiento de bajo bit. El método se prueba en múltiples LLMs preentrenados, evaluados en tareas generativas, discriminativas, matemáticas y de razonamiento, demostrando que CARVQ logra un ancho de banda promedio más bajo por parámetro mientras mantiene perplejidad y precisión razonables.
- Problema Central: La capa de incrustación de modelos de lenguaje grandes consume una gran cantidad de memoria, convirtiéndose en un cuello de botella de rendimiento especialmente en la implementación en dispositivos periféricos
- Necesidad Práctica: Implementación eficiente de LLMs en dispositivos periféricos con memoria limitada
- Desafío Técnico: Los métodos de cuantización existentes muestran degradación drástica de rendimiento en bits muy bajos y requieren soporte de hardware especializado
- Problema de Proporción de Memoria: Cuando las capas de transformer se cuantizan, la proporción relativa de memoria de la capa de incrustación aumenta significativamente (por ejemplo, 52.06% en el modelo INT4 de LLaMA-3.2-1B)
- Necesidad de Computación Periférica: La memoria de dispositivos periféricos generalmente se limita a algunos GB; ahorrar 0.5GB de memoria puede soportar 2B parámetros adicionales de 4 bits o contextos más largos
- Compatibilidad de Hardware: Los métodos de cuantización de bajo bit existentes requieren soporte de hardware especializado, limitando la flexibilidad de implementación
- Cuantización Escalar: Rendimiento drástico por debajo de 2 bits, requiere soporte de hardware especial
- Entrenamiento Consciente de Cuantización (QAT): Requiere datos de entrenamiento original y recursos computacionales significativos para reentrenamiento
- Métodos Existentes de Compresión de Incrustaciones: Métodos lineales como TensorGPT sufren pérdida de precisión severa bajo alta compresión
- Propuesta del Método CARVQ: Nueva técnica de compresión post-entrenamiento que combina adaptador correctivo y cuantización de vectores residuales agrupados, sin requerir soporte de hardware especializado
- Compresión de Bits Extremadamente Bajos: Mantiene rendimiento razonable bajo una tasa de compresión de 1.6 bits promedio por parámetro, mientras que la cuantización escalar falla por debajo de 3 bits
- Compatibilidad de Hardware: Compatible con métodos de cuantización de capas transformer existentes, utilizando solo tipos de datos de 4 bits y 16 bits
- Validación Amplia: Verificación en 7 modelos preentrenados de diferentes escalas, cubriendo cuatro categorías de tareas: generativas, discriminativas, matemáticas y de razonamiento
Entrada: Matriz de incrustación M∈RV×n del LLM preentrenado, donde V es el tamaño del vocabulario y n es la dimensión de incrustación
Salida: Representación de incrustación comprimida, incluyendo tabla de búsqueda cuantizada y adaptador correctivo
Objetivo: Minimizar el error de reconstrucción mientras se logra la máxima relación de compresión
- Remodelado de Matriz: Remodelar la matriz de incrustación a M′∈RnV/h×h, donde h es la dimensión del subvector
- Operación de Agrupación: Dividir M′ en nV/gh grupos, cada grupo de tamaño g×h
- Cuantización Iterativa: Aplicar RVQ L veces a cada grupo, cada vez utilizando un libro de códigos de 2κ centroides
- Método de Almacenamiento: Los libros de códigos se almacenan con precisión original de p bits, los índices con κ bits
Concepto de Diseño: Adopta estrategia de contracción-expansión para reducir cantidad de parámetros
- Mapeo de Contracción: σ0:W→Rm, mapea tokens a vectores de dimensión pequeña (m≪n)
- Mapeo de Expansión: σ1:Rm→Rn, expande de vuelta a la dimensión original mediante perceptrón multicapa
Estructura MLP:
σ1=hL∘hNLk∘⋯∘hNL1
donde hNLi(x)=ReLU(Wi⋅x+bi), hL(x)=WL⋅x+bL
Estrategia de Combinación: Incrustación final = salida de Group RVQ + salida del adaptador correctivo
Objetivo de Entrenamiento: Minimizar error de reconstrucción L1
L=∑i=1V∣∣Mi−(RVQ(Mi)+σ1(σ0(Ti)))∣∣1
- Mecanismo de Compensación No Lineal: El adaptador correctivo compensa el error de cuantización de RVQ mediante mapeo no lineal
- Diseño Amigable con Hardware: Utiliza solo tipos de datos de 4 bits y 16 bits, compatible con hardware existente
- Eficiencia de Parámetros: Los parámetros del adaptador correctivo son mucho menores que RVQ, la relación de compresión general está dominada por RVQ
- Característica Post-Entrenamiento: Sin necesidad de reentrenamiento, aplicable directamente a modelos preentrenados
Ancho de Banda Promedio por Parámetro:
BCARVQ=BCA+BRVQ
donde:
BRVQ=p×gh×pLh2κ×p+gLκBCA=p×nVNP
- Tareas Generativas: Evaluación de perplejidad en WikiText-2
- Tareas Discriminativas: HellaSwag, WinoGrande, PIQA
- Tareas Matemáticas: GSM8K
- Tareas de Razonamiento: ARC Challenge, ARC Easy
- Perplejidad (Perplexity): Mide calidad generativa
- Precisión (Accuracy): Rendimiento en tareas discriminativas y de razonamiento
- Ancho de Banda Promedio por Parámetro: Indicador de eficiencia de compresión
- Ahorro de Memoria: Beneficio de implementación real
- Cuantización Escalar: Cuantización estándar INT4, INT3, INT2
- Cuantización AWQ: Cuantización de pesos consciente de activación
- Experimentos de Ablación: CA+cuantización escalar vs CARVQ
- Hiperparámetros: [m1,m2,m3]=[16,384,512], κ=4, h=8, g=1024
- Entrenamiento: Optimizador Adam, tasa de aprendizaje 1e-3, 500 iteraciones
- Hardware: RTX 4090, tiempo de entrenamiento aproximadamente 2 minutos
| Método | Ancho de Banda Promedio | Aumento de Perplejidad |
|---|
| CARVQ-4 | 3.155 | 0.238 |
| CARVQ-3 | 2.405 | 0.532 |
| CARVQ-2 | 1.655 | 3.544 |
| INT3 | 3.0 | 0.750 |
| INT2 | 2.0 | 83.88 |
- CARVQ-3: Disminución de precisión promedio de 0.70%
- CARVQ-2: Disminución de precisión promedio de 2.75%
- INT2: Disminución de precisión promedio de 8.23%
Comparación RVQ vs Cuantización Escalar:
- CARVQ-2 (1.655 bits): Perplejidad de WikiText-2 de 16.34
- CA+INT1 (1.155 bits): Perplejidad de WikiText-2 de 14528
- Demuestra la ventaja significativa de RVQ sobre cuantización escalar
Combinación con AWQ:
- LLaMA-3.2-3B: Aumento de perplejidad de CARVQ-3+AWQ de solo 0.95
- Qwen2.5-3B: Aumento de perplejidad de CARVQ-3+AWQ de solo 0.30
- Demuestra buena compatibilidad con métodos de cuantización existentes
- Efecto de Escala de Modelo: Modelos más grandes son más robustos a la cuantización de capa de incrustación
- Sensibilidad de Tareas: Las tareas matemáticas son más sensibles a la compresión, las tareas de razonamiento son relativamente robustas
- Configuración Óptima: CARVQ-3 logra el mejor equilibrio entre relación de compresión y rendimiento
- Métodos de Cuantización: Cuantización consciente de activación como AWQ, SmoothQuant
- Métodos de Poda: Poda estructurada, poda de cabezas de atención
- Ventaja de Este Artículo: Se enfoca en capa de incrustación, compatible ortogonalmente con métodos existentes
- LoRA: Adaptación de bajo rango para ajuste fino
- Descomposición Tensorial: Descomposición de entrenamiento tensorial y otros métodos
- Diferencia de Este Artículo: Compresión post-entrenamiento, sin necesidad de reentrenamiento
- TensorGPT: Basado en descomposición de entrenamiento tensorial, pero la naturaleza lineal limita rendimiento de alta compresión
- Poda Dinámica de Vocabulario: Requiere ajuste fino, pobre generalización
- Contribución de Este Artículo: Primer método eficiente de compresión post-entrenamiento de capa de incrustación
- CARVQ logra una tasa de compresión promedio de 1.6 bits, significativamente superior al límite de 3 bits de cuantización escalar
- El método tiene buena compatibilidad de hardware, requiere solo soporte de tipos de datos de 4 bits y 16 bits
- Compatible ortogonalmente con métodos de cuantización de transformer existentes, puede integrarse sin problemas
- Rango de Aplicabilidad: Principalmente aplicable a modelos pequeños, la proporción de capa de incrustación es relativamente pequeña en modelos grandes
- Complejidad Computacional: No puede aplicarse directamente a capas de transformer con activaciones continuas
- Información Semántica: Puede perder información semántica de grano fino, afectando tareas que dependen de representaciones sutiles
- Propagación de Error: Combinado con compresión excesivamente con pérdida de transformer puede afectar robustez general
- Extensión a aplicaciones de modelos de mayor escala
- Investigación de integración profunda con otras técnicas de compresión
- Desarrollo de aceleración de hardware especializado para operaciones de tabla de búsqueda
- Exploración de métodos de compresión que preserven estructura semántica
- Innovación Fuerte: Primera combinación de adaptador correctivo con Group RVQ, resolviendo el problema de compresión de capa de incrustación
- Valor Práctico Alto: Dirigido a necesidades reales de implementación en dispositivos periféricos, con valor de aplicación directa
- Experimentación Completa: Evaluación integral cubriendo 7 modelos y 4 categorías de tareas
- Amigable con Ingeniería: Buena compatibilidad de hardware, fácil de implementar
- Análisis Teórico Insuficiente: Falta explicación teórica profunda de por qué esta combinación es efectiva
- Escenarios de Aplicabilidad Limitados: Principalmente dirigido a modelos pequeños, ventaja no obvia en modelos grandes
- Impacto a Largo Plazo Desconocido: El impacto en ajuste fino de modelos, aprendizaje continuo y otras tareas posteriores requiere investigación adicional
- Contribución Técnica: Proporciona nueva ruta técnica para implementación de LLM en dispositivos periféricos
- Valor Industrial: Significancia importante para implementación de LLM en dispositivos móviles, dispositivos IoT
- Inspiración de Investigación: Puede catalizar más investigación en compresión de capa de incrustación y diseño de adaptadores
- Computación Periférica: Dispositivos móviles con memoria limitada, dispositivos IoT
- Aplicaciones en Tiempo Real: Sistemas de diálogo, sistemas de recomendación que requieren respuesta rápida
- Escenarios Sensibles a Costos: Aplicaciones que requieren implementar LLM en recursos de hardware limitados
- Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
- Hu et al. (2022). LoRA: Low-rank adaptation of large language models
- Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
- Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models
Evaluación General: Este es un artículo técnico de alta calidad dirigido a necesidades de implementación práctica, proponiendo el método CARVQ que logra un avance importante en el campo de compresión de capas de incrustación, proporcionando una solución efectiva para la implementación de LLM en dispositivos periféricos. A pesar de algunas limitaciones, su innovación, practicidad y valor de ingeniería lo convierten en una contribución importante en este campo.