2025-11-17T05:22:13.097937

CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression

Gou, Byun, Malpeddi et al.

Large Language Models (LLMs) typically rely on a large number of parameters for token embedding, leading to substantial storage requirements and memory footprints. In particular, LLMs deployed on edge devices are memory-bound, and reducing the memory footprint by compressing the embedding layer not only frees up the memory bandwidth but also speeds up inference. To address this, we introduce CARVQ, a post-training novel Corrective Adaptor combined with group Residual Vector Quantization. CARVQ relies on the composition of both linear and non-linear maps and mimics the original model embedding to compress to approximately 1.6 bits without requiring specialized hardware to support lower-bit storage. We test our method on pre-trained LLMs such as LLaMA-3.2-1B, LLaMA-3.2-3B, LLaMA-3.2-3B-Instruct, LLaMA-3.1-8B, Qwen2.5-7B, Qwen2.5-Math-7B and Phi-4, evaluating on common generative, discriminative, math and reasoning tasks. We show that in most cases, CARVQ can achieve lower average bitwidth-per-parameter while maintaining reasonable perplexity and accuracy compared to scalar quantization. Our contributions include a novel compression technique that is compatible with state-of-the-art transformer quantization methods and can be seamlessly integrated into any hardware supporting 4-bit memory to reduce the model's memory footprint in memory-constrained devices. This work demonstrates a crucial step toward the efficient deployment of LLMs on edge devices.

academic

CARVQ: Adaptador Correctivo con Cuantización de Vectores Residuales Agrupados para Compresión de Incrustaciones de LLM

Información Básica

ID del Artículo: 2510.12721
Título: CARVQ: Corrective Adaptor with Group Residual Vector Quantization for LLM Embedding Compression
Autores: Dayin Gou*, Sanghyun Byun*, Nilesh Malpeddi, Gabrielle De Micheli, Prathamesh Vaste, Jacob Song, Woo Seong Chung†
Institución: LG Electronics USA
Clasificación: cs.LG
Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12721v1

Resumen

Los modelos de lenguaje grandes (LLMs) típicamente dependen de una gran cantidad de parámetros para las incrustaciones de tokens, lo que resulta en enormes requisitos de almacenamiento y consumo de memoria. Particularmente, los LLMs implementados en dispositivos periféricos están limitados por memoria; la compresión de la capa de incrustación no solo libera ancho de banda de memoria sino que también acelera la inferencia. Por lo tanto, este artículo propone CARVQ, un método novedoso de post-entrenamiento que combina un adaptador correctivo con cuantización de vectores residuales agrupados. CARVQ depende de una combinación de mapeos lineales y no lineales que imitan las incrustaciones del modelo original, logrando compresión a aproximadamente 1.6 bits sin requerir soporte de hardware especializado para almacenamiento de bajo bit. El método se prueba en múltiples LLMs preentrenados, evaluados en tareas generativas, discriminativas, matemáticas y de razonamiento, demostrando que CARVQ logra un ancho de banda promedio más bajo por parámetro mientras mantiene perplejidad y precisión razonables.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: La capa de incrustación de modelos de lenguaje grandes consume una gran cantidad de memoria, convirtiéndose en un cuello de botella de rendimiento especialmente en la implementación en dispositivos periféricos
Necesidad Práctica: Implementación eficiente de LLMs en dispositivos periféricos con memoria limitada
Desafío Técnico: Los métodos de cuantización existentes muestran degradación drástica de rendimiento en bits muy bajos y requieren soporte de hardware especializado

Importancia del Problema

Problema de Proporción de Memoria: Cuando las capas de transformer se cuantizan, la proporción relativa de memoria de la capa de incrustación aumenta significativamente (por ejemplo, 52.06% en el modelo INT4 de LLaMA-3.2-1B)
Necesidad de Computación Periférica: La memoria de dispositivos periféricos generalmente se limita a algunos GB; ahorrar 0.5GB de memoria puede soportar 2B parámetros adicionales de 4 bits o contextos más largos
Compatibilidad de Hardware: Los métodos de cuantización de bajo bit existentes requieren soporte de hardware especializado, limitando la flexibilidad de implementación

Limitaciones de Métodos Existentes

Cuantización Escalar: Rendimiento drástico por debajo de 2 bits, requiere soporte de hardware especial
Entrenamiento Consciente de Cuantización (QAT): Requiere datos de entrenamiento original y recursos computacionales significativos para reentrenamiento
Métodos Existentes de Compresión de Incrustaciones: Métodos lineales como TensorGPT sufren pérdida de precisión severa bajo alta compresión

Contribuciones Principales

Propuesta del Método CARVQ: Nueva técnica de compresión post-entrenamiento que combina adaptador correctivo y cuantización de vectores residuales agrupados, sin requerir soporte de hardware especializado
Compresión de Bits Extremadamente Bajos: Mantiene rendimiento razonable bajo una tasa de compresión de 1.6 bits promedio por parámetro, mientras que la cuantización escalar falla por debajo de 3 bits
Compatibilidad de Hardware: Compatible con métodos de cuantización de capas transformer existentes, utilizando solo tipos de datos de 4 bits y 16 bits
Validación Amplia: Verificación en 7 modelos preentrenados de diferentes escalas, cubriendo cuatro categorías de tareas: generativas, discriminativas, matemáticas y de razonamiento

Explicación Detallada del Método

Definición de Tarea

Entrada: Matriz de incrustación $M \in \mathbb{R}^{V \times n}$ del LLM preentrenado, donde $V$ es el tamaño del vocabulario y $n$ es la dimensión de incrustación Salida: Representación de incrustación comprimida, incluyendo tabla de búsqueda cuantizada y adaptador correctivo Objetivo: Minimizar el error de reconstrucción mientras se logra la máxima relación de compresión

Arquitectura del Modelo

1. Cuantización de Vectores Residuales Agrupados (Group RVQ)

Remodelado de Matriz: Remodelar la matriz de incrustación a $M' \in \mathbb{R}^{nV/h \times h}$ , donde $h$ es la dimensión del subvector
Operación de Agrupación: Dividir $M'$ en $nV/gh$ grupos, cada grupo de tamaño $g \times h$
Cuantización Iterativa: Aplicar RVQ $L$ veces a cada grupo, cada vez utilizando un libro de códigos de $2^κ$ centroides
Método de Almacenamiento: Los libros de códigos se almacenan con precisión original de $p$ bits, los índices con $κ$ bits

2. Adaptador Correctivo (Corrective Adaptor)

Concepto de Diseño: Adopta estrategia de contracción-expansión para reducir cantidad de parámetros

Mapeo de Contracción: $\sigma_0: W \rightarrow \mathbb{R}^m$ , mapea tokens a vectores de dimensión pequeña ( $m \ll n$ )
Mapeo de Expansión: $\sigma_1: \mathbb{R}^m \rightarrow \mathbb{R}^n$ , expande de vuelta a la dimensión original mediante perceptrón multicapa

Estructura MLP: $\sigma_1 = h_L \circ h_{NL_k} \circ \cdots \circ h_{NL_1}$ donde $h_{NL_i}(x) = \text{ReLU}(W_i \cdot x + b_i)$ , $h_L(x) = W_L \cdot x + b_L$

3. Marco General de CARVQ

Estrategia de Combinación: Incrustación final = salida de Group RVQ + salida del adaptador correctivo Objetivo de Entrenamiento: Minimizar error de reconstrucción L1 $\mathcal{L} = \sum_{i=1}^{V} ||M_i - (\text{RVQ}(M_i) + \sigma_1(\sigma_0(T_i)))||_1$

Puntos de Innovación Técnica

Mecanismo de Compensación No Lineal: El adaptador correctivo compensa el error de cuantización de RVQ mediante mapeo no lineal
Diseño Amigable con Hardware: Utiliza solo tipos de datos de 4 bits y 16 bits, compatible con hardware existente
Eficiencia de Parámetros: Los parámetros del adaptador correctivo son mucho menores que RVQ, la relación de compresión general está dominada por RVQ
Característica Post-Entrenamiento: Sin necesidad de reentrenamiento, aplicable directamente a modelos preentrenados

Análisis de Relación de Compresión

Ancho de Banda Promedio por Parámetro: $B_{CARVQ} = B_{CA} + B_{RVQ}$ donde: $B_{RVQ} = p \times \frac{Lh2^κ \times p + gLκ}{gh \times p}$ $B_{CA} = p \times \frac{N_P}{nV}$

Configuración Experimental

Conjuntos de Datos

Tareas Generativas: Evaluación de perplejidad en WikiText-2
Tareas Discriminativas: HellaSwag, WinoGrande, PIQA
Tareas Matemáticas: GSM8K
Tareas de Razonamiento: ARC Challenge, ARC Easy

Métricas de Evaluación

Perplejidad (Perplexity): Mide calidad generativa
Precisión (Accuracy): Rendimiento en tareas discriminativas y de razonamiento
Ancho de Banda Promedio por Parámetro: Indicador de eficiencia de compresión
Ahorro de Memoria: Beneficio de implementación real

Métodos de Comparación

Cuantización Escalar: Cuantización estándar INT4, INT3, INT2
Cuantización AWQ: Cuantización de pesos consciente de activación
Experimentos de Ablación: CA+cuantización escalar vs CARVQ

Detalles de Implementación

Hiperparámetros: $[m_1, m_2, m_3] = [16, 384, 512]$ , $κ=4$ , $h=8$ , $g=1024$
Entrenamiento: Optimizador Adam, tasa de aprendizaje 1e-3, 500 iteraciones
Hardware: RTX 4090, tiempo de entrenamiento aproximadamente 2 minutos

Resultados Experimentales

Resultados Principales

Rendimiento en Tareas Generativas

Método	Ancho de Banda Promedio	Aumento de Perplejidad
CARVQ-4	3.155	0.238
CARVQ-3	2.405	0.532
CARVQ-2	1.655	3.544
INT3	3.0	0.750
INT2	2.0	83.88

Rendimiento en Tareas Discriminativas

CARVQ-3: Disminución de precisión promedio de 0.70%
CARVQ-2: Disminución de precisión promedio de 2.75%
INT2: Disminución de precisión promedio de 8.23%

Experimentos de Ablación

Comparación RVQ vs Cuantización Escalar:

CARVQ-2 (1.655 bits): Perplejidad de WikiText-2 de 16.34
CA+INT1 (1.155 bits): Perplejidad de WikiText-2 de 14528
Demuestra la ventaja significativa de RVQ sobre cuantización escalar

Verificación de Compatibilidad

Combinación con AWQ:

LLaMA-3.2-3B: Aumento de perplejidad de CARVQ-3+AWQ de solo 0.95
Qwen2.5-3B: Aumento de perplejidad de CARVQ-3+AWQ de solo 0.30
Demuestra buena compatibilidad con métodos de cuantización existentes

Hallazgos Experimentales

Efecto de Escala de Modelo: Modelos más grandes son más robustos a la cuantización de capa de incrustación
Sensibilidad de Tareas: Las tareas matemáticas son más sensibles a la compresión, las tareas de razonamiento son relativamente robustas
Configuración Óptima: CARVQ-3 logra el mejor equilibrio entre relación de compresión y rendimiento

Trabajo Relacionado

Compresión que Preserva Arquitectura

Métodos de Cuantización: Cuantización consciente de activación como AWQ, SmoothQuant
Métodos de Poda: Poda estructurada, poda de cabezas de atención
Ventaja de Este Artículo: Se enfoca en capa de incrustación, compatible ortogonalmente con métodos existentes

Compresión Adaptativa de Arquitectura

LoRA: Adaptación de bajo rango para ajuste fino
Descomposición Tensorial: Descomposición de entrenamiento tensorial y otros métodos
Diferencia de Este Artículo: Compresión post-entrenamiento, sin necesidad de reentrenamiento

Compresión de Capa de Incrustación

TensorGPT: Basado en descomposición de entrenamiento tensorial, pero la naturaleza lineal limita rendimiento de alta compresión
Poda Dinámica de Vocabulario: Requiere ajuste fino, pobre generalización
Contribución de Este Artículo: Primer método eficiente de compresión post-entrenamiento de capa de incrustación

Conclusiones y Discusión

Conclusiones Principales

CARVQ logra una tasa de compresión promedio de 1.6 bits, significativamente superior al límite de 3 bits de cuantización escalar
El método tiene buena compatibilidad de hardware, requiere solo soporte de tipos de datos de 4 bits y 16 bits
Compatible ortogonalmente con métodos de cuantización de transformer existentes, puede integrarse sin problemas

Limitaciones

Rango de Aplicabilidad: Principalmente aplicable a modelos pequeños, la proporción de capa de incrustación es relativamente pequeña en modelos grandes
Complejidad Computacional: No puede aplicarse directamente a capas de transformer con activaciones continuas
Información Semántica: Puede perder información semántica de grano fino, afectando tareas que dependen de representaciones sutiles
Propagación de Error: Combinado con compresión excesivamente con pérdida de transformer puede afectar robustez general

Direcciones Futuras

Extensión a aplicaciones de modelos de mayor escala
Investigación de integración profunda con otras técnicas de compresión
Desarrollo de aceleración de hardware especializado para operaciones de tabla de búsqueda
Exploración de métodos de compresión que preserven estructura semántica

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera combinación de adaptador correctivo con Group RVQ, resolviendo el problema de compresión de capa de incrustación
Valor Práctico Alto: Dirigido a necesidades reales de implementación en dispositivos periféricos, con valor de aplicación directa
Experimentación Completa: Evaluación integral cubriendo 7 modelos y 4 categorías de tareas
Amigable con Ingeniería: Buena compatibilidad de hardware, fácil de implementar

Deficiencias

Análisis Teórico Insuficiente: Falta explicación teórica profunda de por qué esta combinación es efectiva
Escenarios de Aplicabilidad Limitados: Principalmente dirigido a modelos pequeños, ventaja no obvia en modelos grandes
Impacto a Largo Plazo Desconocido: El impacto en ajuste fino de modelos, aprendizaje continuo y otras tareas posteriores requiere investigación adicional

Impacto

Contribución Técnica: Proporciona nueva ruta técnica para implementación de LLM en dispositivos periféricos
Valor Industrial: Significancia importante para implementación de LLM en dispositivos móviles, dispositivos IoT
Inspiración de Investigación: Puede catalizar más investigación en compresión de capa de incrustación y diseño de adaptadores

Escenarios de Aplicabilidad

Computación Periférica: Dispositivos móviles con memoria limitada, dispositivos IoT
Aplicaciones en Tiempo Real: Sistemas de diálogo, sistemas de recomendación que requieren respuesta rápida
Escenarios Sensibles a Costos: Aplicaciones que requieren implementar LLM en recursos de hardware limitados

Referencias

Lin et al. (2024). AWQ: Activation-aware weight quantization for llm compression and acceleration
Hu et al. (2022). LoRA: Low-rank adaptation of large language models
Xu et al. (2023). TensorGPT: Efficient compression of the embedding layer in llms based on the tensor-train decomposition
Xiao et al. (2023). SmoothQuant: Accurate and efficient post-training quantization for large language models

Evaluación General: Este es un artículo técnico de alta calidad dirigido a necesidades de implementación práctica, proponiendo el método CARVQ que logra un avance importante en el campo de compresión de capas de incrustación, proporcionando una solución efectiva para la implementación de LLM en dispositivos periféricos. A pesar de algunas limitaciones, su innovación, practicidad y valor de ingeniería lo convierten en una contribución importante en este campo.