2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin

Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.

academic

COMPACT: Poda de Modelo Optimizada por Token Común en Canales y Tokens

Información Básica

ID del Artículo: 2509.06836
Título: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Autores: Eugene Kwek, Wenpeng Yin (Penn State University)
Clasificación: cs.CL cs.AI cs.LG
Estado de Publicación: Preimpresión en revisión
Enlace del Artículo: https://arxiv.org/abs/2509.06836v3

Resumen

Este artículo propone el método de poda COMPACT para abordar la optimización de eficiencia de los modelos de lenguaje grande (LLM) en términos de memoria, latencia y costos de servicio. El método combina poda de vocabulario y poda de canales FFN ponderada por tokens comunes, logrando compresión de parámetros mientras se mantiene la arquitectura estándar de transformer. La efectividad del método se valida experimentalmente en familias de modelos como Qwen, LLaMA y Gemma (parámetros de 0.5B-70B).

Contexto de Investigación y Motivación

Definición del Problema

Aunque los modelos de lenguaje grande demuestran un desempeño excepcional en diversas tareas de PNL, su enorme cantidad de parámetros (decenas a cientos de miles de millones) resulta en altos costos de implementación, limitando su aplicación en dispositivos periféricos, aplicaciones interactivas e inferencia a gran escala.

Limitaciones de Métodos Existentes

Poda de Ancho (Width Pruning): Elimina dimensiones ocultas o canales, pero destruye la arquitectura estándar de transformer, requiriendo código de inferencia personalizado
Poda de Profundidad (Depth Pruning): Elimina bloques de transformer completos, preserva la arquitectura pero causa caída abrupta de desempeño
Adaptabilidad de Escala Deficiente: Los métodos existentes son efectivos en modelos grandes pero funcionan mal en modelos de lenguaje pequeños (SLM)
Ignora Características Lingüísticas: No considera la diferencia en importancia de tokens, tratando todos los tokens por igual

Motivación de la Investigación

Los autores descubren mediante análisis que:

Existen diferencias significativas en la distribución de parámetros entre modelos de diferentes escalas: los parámetros de vocabulario ocupan una proporción mayor en modelos pequeños, mientras que los parámetros FFN dominan en modelos grandes
El lenguaje natural sigue una distribución de Zipf, donde los tokens raros tienen frecuencia extremadamente baja y contribuyen limitadamente al desempeño posterior

Contribuciones Principales

Análisis Sistemático: Primer análisis sistemático de las leyes de distribución de parámetros de embedding, FFN y attention en LLM de diferentes escalas
Método COMPACT: Propone un nuevo marco que combina poda de vocabulario y poda FFN ponderada por tokens comunes
Compatibilidad de Arquitectura: Mantiene la arquitectura estándar de transformer, compatible con marcos de inferencia existentes
Adaptación de Escala: Logra desempeño SOTA en múltiples familias de modelos de 0.5B a 70B parámetros

Detalles del Método

Análisis de Distribución de Parámetros

Los autores analizan primero la distribución de parámetros del transformer decodificador moderno:

Parámetros de Vocabulario: $N_{vocab} = 2VD$ (capas de embedding y LM head)
Parámetros FFN: $N_{FFN} = 3LDI$ (L capas, dimensión intermedia I)
Parámetros de Attention: $N_{attention} = 2LD^2(1 + \frac{1}{H})$ (H como proporción de cabezas)

Con el crecimiento de la escala del modelo, $N_{FFN}$ y $N_{attention}$ crecen según $O(LD^2)$ , mientras que $N_{vocab}$ crece solo según $O(D)$ , por lo tanto los parámetros de vocabulario ocupan una proporción mayor en modelos pequeños.

Arquitectura COMPACT

1. Poda de Vocabulario (Vocabulary Pruning)

Principio: Basado en la característica de que el tokenizador BPE sigue una distribución de Zipf, elimina los $V-V'$ tokens más raros
Implementación: Elimina directamente las filas correspondientes de las matrices de embedding y LM head, así como las reglas de fusión en el tokenizador
Ventajas: No requiere datos de calibración, computacionalmente eficiente

2. Poda FFN Ponderada por Token Común

El método act² tradicional calcula la importancia del canal como: $I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k$

El método common act² propuesto por COMPACT: $I_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{en otro caso} \end{cases}$

donde $S$ es el conjunto de tokens raros a ser podados.

Flujo del Algoritmo

Algoritmo 1 COMPACT
Entrada: Modelo M, conjunto de datos de calibración D, tamaño de vocabulario objetivo V', dimensión intermedia objetivo I'
1. Identificar el conjunto S de los V-V' tokens más raros
2. Ejecutar propagación hacia adelante en el conjunto de datos D, recopilar activaciones al cuadrado
3. Para cada canal k, calcular importancia Ik usando common act²
4. Para cada capa: podar los I-I' canales menos importantes
5. Podar parámetros de vocabulario: eliminar las últimas V-V' filas de las matrices de embedding y LM head
6. Retornar modelo podado M'

Puntos de Innovación Técnica

Estrategia de Poda Dual: Combina poda de vocabulario y poda FFN, dirigida a características de distribución de parámetros de modelos de diferentes escalas
Ponderación por Token Común: Al podar FFN, solo considera tokens que permanecen válidos después de la poda, evitando ser desviado por tokens raros
Preservación de Arquitectura: Solo poda el tamaño de vocabulario y dimensión intermedia, mantiene la estructura estándar de transformer
Adaptación de Escala: Mediante ajuste de dos hiperparámetros $V'$ e $I'$ se adapta a necesidades de diferentes escalas

Configuración Experimental

Modelos Evaluados

Modelos de Lenguaje Pequeños: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
Modelos de Lenguaje Grande: LLaMA 3.1-8B, LLaMA 3.1-70B

Conjuntos de Datos y Tareas

Datos de Calibración: 256 muestras del conjunto de datos C4
Tareas de Evaluación: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

Métodos de Comparación

Poda de Profundidad: ShortGPT, LaCo
Poda de Ancho: SliceGPT, 2SSP, FLAP

Métricas de Evaluación

Proporción de poda de parámetros, precisión promedio, tasa de retención de desempeño relativo
Tiempo de poda, rendimiento de inferencia, uso de memoria GPU

Resultados Experimentales

Resultados Principales

Desempeño en Modelos de Lenguaje Pequeños

En Qwen 2.5-0.5B con proporción de poda del 35%:

COMPACT: Precisión promedio 35.3% (70.4% desempeño relativo)
Mejor baseline: 31.4% (62.5% desempeño relativo)

En LLaMA 3.2-1B con proporción de poda del 35%:

COMPACT: Precisión promedio 36.9% (76.4% desempeño relativo)
Mejor baseline: 33.6% (69.6% desempeño relativo)

Desempeño en Modelos de Lenguaje Grande

En LLaMA 3.1-70B con proporción de poda del 35%:

COMPACT: Precisión promedio 63.7% (80.2% desempeño relativo)
2SSP: 62.8% (79.1% desempeño relativo)

Análisis de Eficiencia

Comparación de Tiempo de Poda (LLaMA 3.1-8B, 35% poda)

COMPACT: 0:32
2SSP: 1:26
SliceGPT: 10:48

Eficiencia de Inferencia (LLaMA 3.1-8B, 35% poda)

Uso de Memoria: COMPACT reduce 36% (óptimo), ShortGPT/LaCo reduce 25%
Mejora de Rendimiento: COMPACT mejora 37%, ShortGPT/LaCo mejora 57%

Experimentos de Ablación

Efectividad de Common act²

En Qwen 2.5-0.5B con 35% poda:

Common act²: 70.4% desempeño relativo
act² estándar: 69.2% desempeño relativo
Método |act|: 67.6% desempeño relativo

Análisis de Equilibrio Vocabulario-FFN

Proporción de poda fija del 37%, diferentes combinaciones de $V'$ e $I'$ :

Poda solo FFN (V'=151936): 63.0% desempeño relativo
Combinación óptima (V'=49536): 70.4% desempeño relativo

Hallazgos Importantes

Degradación Suave: COMPACT muestra degradación de desempeño suave, mientras que métodos de poda profunda presentan saltos abruptos de desempeño
Independencia de Arquitectura: COMPACT se puede aplicar directamente a nuevas arquitecturas como Gemma 3, mientras que otros métodos requieren modificaciones específicas de arquitectura
Impacto Limitado de Tokens Raros: La reducción del 67% del vocabulario solo afecta el 4% de la retokenización de texto

Trabajo Relacionado

Poda de Profundidad

Métodos Representativos: Shortened LLaMA, SLEB, LLM-Streamline
Ventajas: Mantiene arquitectura estándar, aceleración de inferencia notable
Desventajas: Eliminación de grano grueso causa caída abrupta de desempeño

Poda de Ancho

Métodos Representativos: LLM-Pruner, SliceGPT, FLAP, 2SSP
Ventajas: Control de grano fino, degradación de desempeño relativamente suave
Desventajas: Destruye arquitectura estándar, requiere código de inferencia personalizado

Poda de Vocabulario

Trabajos Existentes: Principalmente enfocados en recorte de vocabulario específico de idioma/dominio
Contribución de este Artículo: Poda de vocabulario para LLM general, forma marco completo combinado con poda FFN

Conclusiones y Discusión

Conclusiones Principales

COMPACT logra desempeño de poda SOTA en múltiples familias de modelos y escalas
El método mantiene la arquitectura estándar de transformer, con buena compatibilidad de implementación
La estrategia de poda dual se adapta efectivamente a características de distribución de parámetros de modelos de diferentes escalas

Limitaciones

Mejora de Rendimiento Limitada: Comparado con métodos de poda profunda, aún hay brecha en mejora de rendimiento de inferencia
Adaptabilidad de Dominio de Poda de Vocabulario: Puede requerir retención de más vocabulario especializado en dominios específicos
Ajuste de Hiperparámetros: Requiere encontrar combinaciones óptimas de $V'$ e $I'$ para diferentes proporciones de poda

Direcciones Futuras

Los autores proponen la necesidad de reducir aún más la brecha entre poda de ancho y poda de profundidad en términos de rendimiento.

Evaluación Profunda

Fortalezas

Fundamento Teórico Sólido: Guiado por análisis de distribución de parámetros y características de distribución de Zipf
Diseño de Método Ingenioso: common act² combina ingeniosamente poda de vocabulario y poda FFN
Experimentos Completos: Evaluación sistemática cubriendo múltiples familias de modelos, escalas y tareas
Alto Valor Práctico: Mantiene compatibilidad de arquitectura, fácil de implementar y desplegar

Insuficiencias

Grado de Innovación Limitado: Tanto poda de vocabulario como poda FFN son técnicas existentes, la contribución principal está en la combinación
Análisis Teórico Insuficiente: Carece de explicación teórica profunda de por qué esta combinación es efectiva
Aceleración de Inferencia Limitada: En indicadores de desempeño clave (rendimiento), no supera métodos de poda profunda

Impacto

Contribución Académica: Proporciona nueva perspectiva para poda de LLM, particularmente el pensamiento de adaptación de escala
Valor Práctico: Método simple y efectivo, fácil de implementar y desplegar
Reproducibilidad: Los autores se comprometen a liberar código, favoreciendo la promoción del método

Escenarios Aplicables

Implementación en Dispositivos Periféricos: Compresión de modelos en entornos con memoria limitada
Implementación Multi-escala: Escenarios que requieren soportar simultáneamente modelos pequeños y grandes
Poda Rápida: Aplicaciones que requieren completar compresión de modelos en corto tiempo

Referencias

El artículo cita numerosos trabajos relacionados, incluyendo principalmente:

Métodos de Cuantización: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
Poda de Profundidad: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
Poda de Ancho: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
Procesamiento de Vocabulario: Trabajos relacionados de poda de vocabulario multilingüe y específico de dominio

Evaluación General: Este es un artículo técnicamente sólido y prácticamente fuerte. Aunque es relativamente limitado en innovación teórica, mediante combinación ingeniosa de métodos y validación experimental completa, contribuye una solución efectiva y fácil de desplegar al campo de poda de LLM. Particularmente, sus ventajas en poda de modelos de lenguaje pequeños y compatibilidad de arquitectura le confieren buenas perspectivas de aplicación.