2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.
Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.
academic

CARVQ: Adaptador Correctivo con Cuantización de Vectores Residuales Agrupados para Compresión de Incrustaciones de LLM

Información Básica

  • ID del Artículo: 2510.12721
  • Título: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
  • Autores: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
  • Institución: LG Electronics USA
  • Clasificación: cs.LG
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12721v1

Resumen

Los modelos de lenguaje grandes (LLMs) típicamente dependen de una gran cantidad de parámetros para las incrustaciones de tokens, lo que resulta en enormes requisitos de almacenamiento y consumo de memoria. Particularmente, los LLMs implementados en dispositivos periféricos están limitados por memoria; la compresión de la capa de incrustación no solo libera ancho de banda de memoria sino que también acelera la inferencia. Por lo tanto, este artículo propone CARVQ, un método novedoso de post-entrenamiento que combina un adaptador correctivo con cuantización de vectores residuales agrupados. CARVQ depende de una combinación de mapeos lineales y no lineales que imitan las incrustaciones del modelo original, logrando compresión a aproximadamente 1.6 bits sin requerir soporte de hardware especializado para almacenamiento de bajo bit. El método se prueba en múltiples LLMs preentrenados, evaluados en tareas generativas, discriminativas, matemáticas y de razonamiento, demostrando que CARVQ logra un ancho de banda promedio más bajo por parámetro mientras mantiene perplejidad y precisión razonables.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Problema Central: La capa de incrustación de modelos de lenguaje grandes consume una gran cantidad de memoria, convirtiéndose en un cuello de botella de rendimiento especialmente en la implementación en dispositivos periféricos
  2. Necesidad Práctica: Implementación eficiente de LLMs en dispositivos periféricos con memoria limitada
  3. Desafío Técnico: Los métodos de cuantización existentes muestran degradación drástica de rendimiento en bits muy bajos y requieren soporte de hardware especializado

Importancia del Problema

  • Problema de Proporción de Memoria: Cuando las capas de transformer se cuantizan, la proporción relativa de memoria de la capa de incrustación aumenta significativamente (por ejemplo, 52.06% en el modelo INT4 de LLaMA-3.2-1B)
  • Necesidad de Computación Periférica: La memoria de dispositivos periféricos generalmente se limita a algunos GB; ahorrar 0.5GB de memoria puede soportar 2B parámetros adicionales de 4 bits o contextos más largos
  • Compatibilidad de Hardware: Los métodos de cuantización de bajo bit existentes requieren soporte de hardware especializado, limitando la flexibilidad de implementación

Limitaciones de Métodos Existentes

  1. Cuantización Escalar: Rendimiento drástico por debajo de 2 bits, requiere soporte de hardware especial
  2. Entrenamiento Consciente de Cuantización (QAT): Requiere datos de entrenamiento original y recursos computacionales significativos para reentrenamiento
  3. Métodos Existentes de Compresión de Incrustaciones: Métodos lineales como TensorGPT sufren pérdida de precisión severa bajo alta compresión

Contribuciones Principales

  1. Propuesta del Método CARVQ: Nueva técnica de compresión post-entrenamiento que combina adaptador correctivo y cuantización de vectores residuales agrupados, sin requerir soporte de hardware especializado
  2. Compresión de Bits Extremadamente Bajos: Mantiene rendimiento razonable bajo una tasa de compresión de 1.6 bits promedio por parámetro, mientras que la cuantización escalar falla por debajo de 3 bits
  3. Compatibilidad de Hardware: Compatible con métodos de cuantización de capas transformer existentes, utilizando solo tipos de datos de 4 bits y 16 bits
  4. Validación Amplia: Verificación en 7 modelos preentrenados de diferentes escalas, cubriendo cuatro categorías de tareas: generativas, discriminativas, matemáticas y de razonamiento

Explicación Detallada del Método

Definición de Tarea

Entrada: Matriz de incrustación MRV×nM \in \mathbb{R}^{V \times n} del LLM preentrenado, donde VV es el tamaño del vocabulario y nn es la dimensión de incrustación Salida: Representación de incrustación comprimida, incluyendo tabla de búsqueda cuantizada y adaptador correctivo Objetivo: Minimizar el error de reconstrucción mientras se logra la máxima relación de compresión

Arquitectura del Modelo

1. Cuantización de Vectores Residuales Agrupados (Group RVQ)

  • Remodelado de Matriz: Remodelar la matriz de incrustación a MRnV/h×hM' \in \mathbb{R}^{nV/h \times h}, donde hh es la dimensión del subvector
  • Operación de Agrupación: Dividir MM' en nV/ghnV/gh grupos, cada grupo de tamaño g×hg \times h
  • Cuantización Iterativa: Aplicar RVQ LL veces a cada grupo, cada vez utilizando un libro de códigos de 2κ2^κ centroides
  • Método de Almacenamiento: Los libros de códigos se almacenan con precisión original de pp bits, los índices con κκ bits

2. Adaptador Correctivo (Corrective Adaptor)

Concepto de Diseño: Adopta estrategia de contracción-expansión para reducir cantidad de parámetros

  • Mapeo de Contracción: σ0:WRm\sigma_0: W \rightarrow \mathbb{R}^m, mapea tokens a vectores de dimensión pequeña (mnm \ll n)
  • Mapeo de Expansión: σ1:RmRn\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n, expande de vuelta a la dimensión original mediante perceptrón multicapa

Estructura MLP: σ1=hLhNLkhNL1\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1} donde hNLi(x)=ReLU(Wix+bi)h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i), hL(x)=WLx+bLh_L(x) = W_L \cdot x + b_L

3. Marco General de CARVQ

Estrategia de Combinación: Incrustación final = salida de Group RVQ + salida del adaptador correctivo Objetivo de Entrenamiento: Minimizar error de reconstrucción L1 L=i=1VMi(RVQ(Mi)+σ1(σ0(Ti)))1\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1

Puntos de Innovación Técnica

  1. Mecanismo de Compensación No Lineal: El adaptador correctivo compensa el error de cuantización de RVQ mediante mapeo no lineal
  2. Diseño Amigable con Hardware: Utiliza solo tipos de datos de 4 bits y 16 bits, compatible con hardware existente
  3. Eficiencia de Parámetros: Los parámetros del adaptador correctivo son mucho menores que RVQ, la relación de compresión general está dominada por RVQ
  4. Característica Post-Entrenamiento: Sin necesidad de reentrenamiento, aplicable directamente a modelos preentrenados

Análisis de Relación de Compresión

Ancho de Banda Promedio por Parámetro: BCARVQ=BCA+BRVQB_{CARVQ} = B_{CA} + B_{RVQ} donde: BRVQ=p×Lh2κ×p+gLκgh×pB_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}BCA=p×NPnVB_{CA} = p \times \frac{N_P}{nV}

Configuración Experimental

Conjuntos de Datos

  • Tareas Generativas: Evaluación de perplejidad en WikiText-2
  • Tareas Discriminativas: HellaSwag, WinoGrande, PIQA
  • Tareas Matemáticas: GSM8K
  • Tareas de Razonamiento: ARC Challenge, ARC Easy

Métricas de Evaluación

  • Perplejidad (Perplexity): Mide calidad generativa
  • Precisión (Accuracy): Rendimiento en tareas discriminativas y de razonamiento
  • Ancho de Banda Promedio por Parámetro: Indicador de eficiencia de compresión
  • Ahorro de Memoria: Beneficio de implementación real

Métodos de Comparación

  • Cuantización Escalar: Cuantización estándar INT4, INT3, INT2
  • Cuantización AWQ: Cuantización de pesos consciente de activación
  • Experimentos de Ablación: CA+cuantización escalar vs CARVQ

Detalles de Implementación

  • Hiperparámetros: [m1,m2,m3]=[16,384,512][m_1, m_2, m_3] = [16, 384, 512], κ=4κ=4, h=8h=8, g=1024g=1024
  • Entrenamiento: Optimizador Adam, tasa de aprendizaje 1e-3, 500 iteraciones
  • Hardware: RTX 4090, tiempo de entrenamiento aproximadamente 2 minutos

Resultados Experimentales

Resultados Principales

Rendimiento en Tareas Generativas

MétodoAncho de Banda PromedioAumento de Perplejidad
CARVQ-43.1550.238
CARVQ-32.4050.532
CARVQ-21.6553.544
INT33.00.750
INT22.083.88

Rendimiento en Tareas Discriminativas

  • CARVQ-3: Disminución de precisión promedio de 0.70%
  • CARVQ-2: Disminución de precisión promedio de 2.75%
  • INT2: Disminución de precisión promedio de 8.23%

Experimentos de Ablación

Comparación RVQ vs Cuantización Escalar:

  • CARVQ-2 (1.655 bits): Perplejidad de WikiText-2 de 16.34
  • CA+INT1 (1.155 bits): Perplejidad de WikiText-2 de 14528
  • Demuestra la ventaja significativa de RVQ sobre cuantización escalar

Verificación de Compatibilidad

Combinación con AWQ:

  • LLaMA-3.2-3B: Aumento de perplejidad de CARVQ-3+AWQ de solo 0.95
  • Qwen2.5-3B: Aumento de perplejidad de CARVQ-3+AWQ de solo 0.30
  • Demuestra buena compatibilidad con métodos de cuantización existentes

Hallazgos Experimentales

  1. Efecto de Escala de Modelo: Modelos más grandes son más robustos a la cuantización de capa de incrustación
  2. Sensibilidad de Tareas: Las tareas matemáticas son más sensibles a la compresión, las tareas de razonamiento son relativamente robustas
  3. Configuración Óptima: CARVQ-3 logra el mejor equilibrio entre relación de compresión y rendimiento

Trabajo Relacionado

Compresión que Preserva Arquitectura

  • Métodos de Cuantización: Cuantización consciente de activación como AWQ, SmoothQuant
  • Métodos de Poda: Poda estructurada, poda de cabezas de atención
  • Ventaja de Este Artículo: Se enfoca en capa de incrustación, compatible ortogonalmente con métodos existentes

Compresión Adaptativa de Arquitectura

  • LoRA: Adaptación de bajo rango para ajuste fino
  • Descomposición Tensorial: Descomposición de entrenamiento tensorial y otros métodos
  • Diferencia de Este Artículo: Compresión post-entrenamiento, sin necesidad de reentrenamiento

Compresión de Capa de Incrustación

  • TensorGPT: Basado en descomposición de entrenamiento tensorial, pero la naturaleza lineal limita rendimiento de alta compresión
  • Poda Dinámica de Vocabulario: Requiere ajuste fino, pobre generalización
  • Contribución de Este Artículo: Primer método eficiente de compresión post-entrenamiento de capa de incrustación

Conclusiones y Discusión

Conclusiones Principales

  1. CARVQ logra una tasa de compresión promedio de 1.6 bits, significativamente superior al límite de 3 bits de cuantización escalar
  2. El método tiene buena compatibilidad de hardware, requiere solo soporte de tipos de datos de 4 bits y 16 bits
  3. Compatible ortogonalmente con métodos de cuantización de transformer existentes, puede integrarse sin problemas

Limitaciones

  1. Rango de Aplicabilidad: Principalmente aplicable a modelos pequeños, la proporción de capa de incrustación es relativamente pequeña en modelos grandes
  2. Complejidad Computacional: No puede aplicarse directamente a capas de transformer con activaciones continuas
  3. Información Semántica: Puede perder información semántica de grano fino, afectando tareas que dependen de representaciones sutiles
  4. Propagación de Error: Combinado con compresión excesivamente con pérdida de transformer puede afectar robustez general

Direcciones Futuras

  1. Extensión a aplicaciones de modelos de mayor escala
  2. Investigación de integración profunda con otras técnicas de compresión
  3. Desarrollo de aceleración de hardware especializado para operaciones de tabla de búsqueda
  4. Exploración de métodos de compresión que preserven estructura semántica

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera combinación de adaptador correctivo con Group RVQ, resolviendo el problema de compresión de capa de incrustación
  2. Valor Práctico Alto: Dirigido a necesidades reales de implementación en dispositivos periféricos, con valor de aplicación directa
  3. Experimentación Completa: Evaluación integral cubriendo 7 modelos y 4 categorías de tareas
  4. Amigable con Ingeniería: Buena compatibilidad de hardware, fácil de implementar

Deficiencias

  1. Análisis Teórico Insuficiente: Falta explicación teórica profunda de por qué esta combinación es efectiva
  2. Escenarios de Aplicabilidad Limitados: Principalmente dirigido a modelos pequeños, ventaja no obvia en modelos grandes
  3. Impacto a Largo Plazo Desconocido: El impacto en ajuste fino de modelos, aprendizaje continuo y otras tareas posteriores requiere investigación adicional

Impacto

  1. Contribución Técnica: Proporciona nueva ruta técnica para implementación de LLM en dispositivos periféricos
  2. Valor Industrial: Significancia importante para implementación de LLM en dispositivos móviles, dispositivos IoT
  3. Inspiración de Investigación: Puede catalizar más investigación en compresión de capa de incrustación y diseño de adaptadores

Escenarios de Aplicabilidad

  1. Computación Periférica: Dispositivos móviles con memoria limitada, dispositivos IoT
  2. Aplicaciones en Tiempo Real: Sistemas de diálogo, sistemas de recomendación que requieren respuesta rápida
  3. Escenarios Sensibles a Costos: Aplicaciones que requieren implementar LLM en recursos de hardware limitados

Referencias

  1. Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
  2. Hu et al. (2022). LoRA: Low-rank adaptation of large language models
  3. Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
  4. Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

Evaluación General: Este es un artículo técnico de alta calidad dirigido a necesidades de implementación práctica, proponiendo el método CARVQ que logra un avance importante en el campo de compresión de capas de incrustación, proporcionando una solución efectiva para la implementación de LLM en dispositivos periféricos. A pesar de algunas limitaciones, su innovación, practicidad y valor de ingeniería lo convierten en una contribución importante en este campo.