2025-11-10T03:09:53.117606

COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic

COMPACT: Poda de Modelo Optimizada por Token Común en Canales y Tokens

Información Básica

  • ID del Artículo: 2509.06836
  • Título: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
  • Autores: Eugene Kwek, Wenpeng Yin (Penn State University)
  • Clasificación: cs.CL cs.AI cs.LG
  • Estado de Publicación: Preimpresión en revisión
  • Enlace del Artículo: https://arxiv.org/abs/2509.06836v3

Resumen

Este artículo propone el método de poda COMPACT para abordar la optimización de eficiencia de los modelos de lenguaje grande (LLM) en términos de memoria, latencia y costos de servicio. El método combina poda de vocabulario y poda de canales FFN ponderada por tokens comunes, logrando compresión de parámetros mientras se mantiene la arquitectura estándar de transformer. La efectividad del método se valida experimentalmente en familias de modelos como Qwen, LLaMA y Gemma (parámetros de 0.5B-70B).

Contexto de Investigación y Motivación

Definición del Problema

Aunque los modelos de lenguaje grande demuestran un desempeño excepcional en diversas tareas de PNL, su enorme cantidad de parámetros (decenas a cientos de miles de millones) resulta en altos costos de implementación, limitando su aplicación en dispositivos periféricos, aplicaciones interactivas e inferencia a gran escala.

Limitaciones de Métodos Existentes

  1. Poda de Ancho (Width Pruning): Elimina dimensiones ocultas o canales, pero destruye la arquitectura estándar de transformer, requiriendo código de inferencia personalizado
  2. Poda de Profundidad (Depth Pruning): Elimina bloques de transformer completos, preserva la arquitectura pero causa caída abrupta de desempeño
  3. Adaptabilidad de Escala Deficiente: Los métodos existentes son efectivos en modelos grandes pero funcionan mal en modelos de lenguaje pequeños (SLM)
  4. Ignora Características Lingüísticas: No considera la diferencia en importancia de tokens, tratando todos los tokens por igual

Motivación de la Investigación

Los autores descubren mediante análisis que:

  • Existen diferencias significativas en la distribución de parámetros entre modelos de diferentes escalas: los parámetros de vocabulario ocupan una proporción mayor en modelos pequeños, mientras que los parámetros FFN dominan en modelos grandes
  • El lenguaje natural sigue una distribución de Zipf, donde los tokens raros tienen frecuencia extremadamente baja y contribuyen limitadamente al desempeño posterior

Contribuciones Principales

  1. Análisis Sistemático: Primer análisis sistemático de las leyes de distribución de parámetros de embedding, FFN y attention en LLM de diferentes escalas
  2. Método COMPACT: Propone un nuevo marco que combina poda de vocabulario y poda FFN ponderada por tokens comunes
  3. Compatibilidad de Arquitectura: Mantiene la arquitectura estándar de transformer, compatible con marcos de inferencia existentes
  4. Adaptación de Escala: Logra desempeño SOTA en múltiples familias de modelos de 0.5B a 70B parámetros

Detalles del Método

Análisis de Distribución de Parámetros

Los autores analizan primero la distribución de parámetros del transformer decodificador moderno:

  • Parámetros de Vocabulario: Nvocab=2VDN_{vocab} = 2VD (capas de embedding y LM head)
  • Parámetros FFN: NFFN=3LDIN_{FFN} = 3LDI (L capas, dimensión intermedia I)
  • Parámetros de Attention: Nattention=2LD2(1+1H)N_{attention} = 2LD^2(1 + \frac{1}{H}) (H como proporción de cabezas)

Con el crecimiento de la escala del modelo, NFFNN_{FFN} y NattentionN_{attention} crecen según O(LD2)O(LD^2), mientras que NvocabN_{vocab} crece solo según O(D)O(D), por lo tanto los parámetros de vocabulario ocupan una proporción mayor en modelos pequeños.

Arquitectura COMPACT

1. Poda de Vocabulario (Vocabulary Pruning)

  • Principio: Basado en la característica de que el tokenizador BPE sigue una distribución de Zipf, elimina los VVV-V' tokens más raros
  • Implementación: Elimina directamente las filas correspondientes de las matrices de embedding y LM head, así como las reglas de fusión en el tokenizador
  • Ventajas: No requiere datos de calibración, computacionalmente eficiente

2. Poda FFN Ponderada por Token Común

El método act² tradicional calcula la importancia del canal como: Ik=i=1N(SiLU(XiWgate)XiWup)k2I_k = \sum_{i=1}^{N} (SiLU(X_iW_{gate})X_iW_{up})^2_k

El método common act² propuesto por COMPACT: Ik=i=1Nwi(SiLU(XiWgate)XiWup)k2,wi={0xiS1en otro casoI_k = \sum_{i=1}^{N} w_i(SiLU(X_iW_{gate})X_iW_{up})^2_k, \quad w_i = \begin{cases} 0 & x_i \in S \\ 1 & \text{en otro caso} \end{cases}

donde SS es el conjunto de tokens raros a ser podados.

Flujo del Algoritmo

Algoritmo 1 COMPACT
Entrada: Modelo M, conjunto de datos de calibración D, tamaño de vocabulario objetivo V', dimensión intermedia objetivo I'
1. Identificar el conjunto S de los V-V' tokens más raros
2. Ejecutar propagación hacia adelante en el conjunto de datos D, recopilar activaciones al cuadrado
3. Para cada canal k, calcular importancia Ik usando common act²
4. Para cada capa: podar los I-I' canales menos importantes
5. Podar parámetros de vocabulario: eliminar las últimas V-V' filas de las matrices de embedding y LM head
6. Retornar modelo podado M'

Puntos de Innovación Técnica

  1. Estrategia de Poda Dual: Combina poda de vocabulario y poda FFN, dirigida a características de distribución de parámetros de modelos de diferentes escalas
  2. Ponderación por Token Común: Al podar FFN, solo considera tokens que permanecen válidos después de la poda, evitando ser desviado por tokens raros
  3. Preservación de Arquitectura: Solo poda el tamaño de vocabulario y dimensión intermedia, mantiene la estructura estándar de transformer
  4. Adaptación de Escala: Mediante ajuste de dos hiperparámetros VV' e II' se adapta a necesidades de diferentes escalas

Configuración Experimental

Modelos Evaluados

  • Modelos de Lenguaje Pequeños: Qwen 2.5-0.5B, LLaMA 3.2-1B, Gemma 3-1B
  • Modelos de Lenguaje Grande: LLaMA 3.1-8B, LLaMA 3.1-70B

Conjuntos de Datos y Tareas

  • Datos de Calibración: 256 muestras del conjunto de datos C4
  • Tareas de Evaluación: MMLU, HellaSwag, WinoGrande, ARC-C/E, PIQA, GSM8K

Métodos de Comparación

  • Poda de Profundidad: ShortGPT, LaCo
  • Poda de Ancho: SliceGPT, 2SSP, FLAP

Métricas de Evaluación

  • Proporción de poda de parámetros, precisión promedio, tasa de retención de desempeño relativo
  • Tiempo de poda, rendimiento de inferencia, uso de memoria GPU

Resultados Experimentales

Resultados Principales

Desempeño en Modelos de Lenguaje Pequeños

En Qwen 2.5-0.5B con proporción de poda del 35%:

  • COMPACT: Precisión promedio 35.3% (70.4% desempeño relativo)
  • Mejor baseline: 31.4% (62.5% desempeño relativo)

En LLaMA 3.2-1B con proporción de poda del 35%:

  • COMPACT: Precisión promedio 36.9% (76.4% desempeño relativo)
  • Mejor baseline: 33.6% (69.6% desempeño relativo)

Desempeño en Modelos de Lenguaje Grande

En LLaMA 3.1-70B con proporción de poda del 35%:

  • COMPACT: Precisión promedio 63.7% (80.2% desempeño relativo)
  • 2SSP: 62.8% (79.1% desempeño relativo)

Análisis de Eficiencia

Comparación de Tiempo de Poda (LLaMA 3.1-8B, 35% poda)

  • COMPACT: 0:32
  • 2SSP: 1:26
  • SliceGPT: 10:48

Eficiencia de Inferencia (LLaMA 3.1-8B, 35% poda)

  • Uso de Memoria: COMPACT reduce 36% (óptimo), ShortGPT/LaCo reduce 25%
  • Mejora de Rendimiento: COMPACT mejora 37%, ShortGPT/LaCo mejora 57%

Experimentos de Ablación

Efectividad de Common act²

En Qwen 2.5-0.5B con 35% poda:

  • Common act²: 70.4% desempeño relativo
  • act² estándar: 69.2% desempeño relativo
  • Método |act|: 67.6% desempeño relativo

Análisis de Equilibrio Vocabulario-FFN

Proporción de poda fija del 37%, diferentes combinaciones de VV' e II':

  • Poda solo FFN (V'=151936): 63.0% desempeño relativo
  • Combinación óptima (V'=49536): 70.4% desempeño relativo

Hallazgos Importantes

  1. Degradación Suave: COMPACT muestra degradación de desempeño suave, mientras que métodos de poda profunda presentan saltos abruptos de desempeño
  2. Independencia de Arquitectura: COMPACT se puede aplicar directamente a nuevas arquitecturas como Gemma 3, mientras que otros métodos requieren modificaciones específicas de arquitectura
  3. Impacto Limitado de Tokens Raros: La reducción del 67% del vocabulario solo afecta el 4% de la retokenización de texto

Trabajo Relacionado

Poda de Profundidad

  • Métodos Representativos: Shortened LLaMA, SLEB, LLM-Streamline
  • Ventajas: Mantiene arquitectura estándar, aceleración de inferencia notable
  • Desventajas: Eliminación de grano grueso causa caída abrupta de desempeño

Poda de Ancho

  • Métodos Representativos: LLM-Pruner, SliceGPT, FLAP, 2SSP
  • Ventajas: Control de grano fino, degradación de desempeño relativamente suave
  • Desventajas: Destruye arquitectura estándar, requiere código de inferencia personalizado

Poda de Vocabulario

  • Trabajos Existentes: Principalmente enfocados en recorte de vocabulario específico de idioma/dominio
  • Contribución de este Artículo: Poda de vocabulario para LLM general, forma marco completo combinado con poda FFN

Conclusiones y Discusión

Conclusiones Principales

  1. COMPACT logra desempeño de poda SOTA en múltiples familias de modelos y escalas
  2. El método mantiene la arquitectura estándar de transformer, con buena compatibilidad de implementación
  3. La estrategia de poda dual se adapta efectivamente a características de distribución de parámetros de modelos de diferentes escalas

Limitaciones

  1. Mejora de Rendimiento Limitada: Comparado con métodos de poda profunda, aún hay brecha en mejora de rendimiento de inferencia
  2. Adaptabilidad de Dominio de Poda de Vocabulario: Puede requerir retención de más vocabulario especializado en dominios específicos
  3. Ajuste de Hiperparámetros: Requiere encontrar combinaciones óptimas de VV' e II' para diferentes proporciones de poda

Direcciones Futuras

Los autores proponen la necesidad de reducir aún más la brecha entre poda de ancho y poda de profundidad en términos de rendimiento.

Evaluación Profunda

Fortalezas

  1. Fundamento Teórico Sólido: Guiado por análisis de distribución de parámetros y características de distribución de Zipf
  2. Diseño de Método Ingenioso: common act² combina ingeniosamente poda de vocabulario y poda FFN
  3. Experimentos Completos: Evaluación sistemática cubriendo múltiples familias de modelos, escalas y tareas
  4. Alto Valor Práctico: Mantiene compatibilidad de arquitectura, fácil de implementar y desplegar

Insuficiencias

  1. Grado de Innovación Limitado: Tanto poda de vocabulario como poda FFN son técnicas existentes, la contribución principal está en la combinación
  2. Análisis Teórico Insuficiente: Carece de explicación teórica profunda de por qué esta combinación es efectiva
  3. Aceleración de Inferencia Limitada: En indicadores de desempeño clave (rendimiento), no supera métodos de poda profunda

Impacto

  1. Contribución Académica: Proporciona nueva perspectiva para poda de LLM, particularmente el pensamiento de adaptación de escala
  2. Valor Práctico: Método simple y efectivo, fácil de implementar y desplegar
  3. Reproducibilidad: Los autores se comprometen a liberar código, favoreciendo la promoción del método

Escenarios Aplicables

  1. Implementación en Dispositivos Periféricos: Compresión de modelos en entornos con memoria limitada
  2. Implementación Multi-escala: Escenarios que requieren soportar simultáneamente modelos pequeños y grandes
  3. Poda Rápida: Aplicaciones que requieren completar compresión de modelos en corto tiempo

Referencias

El artículo cita numerosos trabajos relacionados, incluyendo principalmente:

  • Métodos de Cuantización: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
  • Poda de Profundidad: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
  • Poda de Ancho: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
  • Procesamiento de Vocabulario: Trabajos relacionados de poda de vocabulario multilingüe y específico de dominio

Evaluación General: Este es un artículo técnicamente sólido y prácticamente fuerte. Aunque es relativamente limitado en innovación teórica, mediante combinación ingeniosa de métodos y validación experimental completa, contribuye una solución efectiva y fácil de desplegar al campo de poda de LLM. Particularmente, sus ventajas en poda de modelos de lenguaje pequeños y compatibilidad de arquitectura le confieren buenas perspectivas de aplicación.