COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic
COMPACT: Poda de Modelo Optimizada por Token Común en Canales y Tokens
Este artículo propone el método de poda COMPACT para abordar la optimización de eficiencia de los modelos de lenguaje grande (LLM) en términos de memoria, latencia y costos de servicio. El método combina poda de vocabulario y poda de canales FFN ponderada por tokens comunes, logrando compresión de parámetros mientras se mantiene la arquitectura estándar de transformer. La efectividad del método se valida experimentalmente en familias de modelos como Qwen, LLaMA y Gemma (parámetros de 0.5B-70B).
Aunque los modelos de lenguaje grande demuestran un desempeño excepcional en diversas tareas de PNL, su enorme cantidad de parámetros (decenas a cientos de miles de millones) resulta en altos costos de implementación, limitando su aplicación en dispositivos periféricos, aplicaciones interactivas e inferencia a gran escala.
Poda de Ancho (Width Pruning): Elimina dimensiones ocultas o canales, pero destruye la arquitectura estándar de transformer, requiriendo código de inferencia personalizado
Poda de Profundidad (Depth Pruning): Elimina bloques de transformer completos, preserva la arquitectura pero causa caída abrupta de desempeño
Adaptabilidad de Escala Deficiente: Los métodos existentes son efectivos en modelos grandes pero funcionan mal en modelos de lenguaje pequeños (SLM)
Ignora Características Lingüísticas: No considera la diferencia en importancia de tokens, tratando todos los tokens por igual
Existen diferencias significativas en la distribución de parámetros entre modelos de diferentes escalas: los parámetros de vocabulario ocupan una proporción mayor en modelos pequeños, mientras que los parámetros FFN dominan en modelos grandes
El lenguaje natural sigue una distribución de Zipf, donde los tokens raros tienen frecuencia extremadamente baja y contribuyen limitadamente al desempeño posterior
Análisis Sistemático: Primer análisis sistemático de las leyes de distribución de parámetros de embedding, FFN y attention en LLM de diferentes escalas
Método COMPACT: Propone un nuevo marco que combina poda de vocabulario y poda FFN ponderada por tokens comunes
Compatibilidad de Arquitectura: Mantiene la arquitectura estándar de transformer, compatible con marcos de inferencia existentes
Adaptación de Escala: Logra desempeño SOTA en múltiples familias de modelos de 0.5B a 70B parámetros
Parámetros de Attention: Nattention=2LD2(1+H1) (H como proporción de cabezas)
Con el crecimiento de la escala del modelo, NFFN y Nattention crecen según O(LD2), mientras que Nvocab crece solo según O(D), por lo tanto los parámetros de vocabulario ocupan una proporción mayor en modelos pequeños.
Principio: Basado en la característica de que el tokenizador BPE sigue una distribución de Zipf, elimina los V−V′ tokens más raros
Implementación: Elimina directamente las filas correspondientes de las matrices de embedding y LM head, así como las reglas de fusión en el tokenizador
Ventajas: No requiere datos de calibración, computacionalmente eficiente
Algoritmo 1 COMPACT
Entrada: Modelo M, conjunto de datos de calibración D, tamaño de vocabulario objetivo V', dimensión intermedia objetivo I'
1. Identificar el conjunto S de los V-V' tokens más raros
2. Ejecutar propagación hacia adelante en el conjunto de datos D, recopilar activaciones al cuadrado
3. Para cada canal k, calcular importancia Ik usando common act²
4. Para cada capa: podar los I-I' canales menos importantes
5. Podar parámetros de vocabulario: eliminar las últimas V-V' filas de las matrices de embedding y LM head
6. Retornar modelo podado M'
Estrategia de Poda Dual: Combina poda de vocabulario y poda FFN, dirigida a características de distribución de parámetros de modelos de diferentes escalas
Ponderación por Token Común: Al podar FFN, solo considera tokens que permanecen válidos después de la poda, evitando ser desviado por tokens raros
Preservación de Arquitectura: Solo poda el tamaño de vocabulario y dimensión intermedia, mantiene la estructura estándar de transformer
Adaptación de Escala: Mediante ajuste de dos hiperparámetros V′ e I′ se adapta a necesidades de diferentes escalas
Degradación Suave: COMPACT muestra degradación de desempeño suave, mientras que métodos de poda profunda presentan saltos abruptos de desempeño
Independencia de Arquitectura: COMPACT se puede aplicar directamente a nuevas arquitecturas como Gemma 3, mientras que otros métodos requieren modificaciones específicas de arquitectura
Impacto Limitado de Tokens Raros: La reducción del 67% del vocabulario solo afecta el 4% de la retokenización de texto
El artículo cita numerosos trabajos relacionados, incluyendo principalmente:
Métodos de Cuantización: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
Poda de Profundidad: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
Poda de Ancho: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
Procesamiento de Vocabulario: Trabajos relacionados de poda de vocabulario multilingüe y específico de dominio
Evaluación General: Este es un artículo técnicamente sólido y prácticamente fuerte. Aunque es relativamente limitado en innovación teórica, mediante combinación ingeniosa de métodos y validación experimental completa, contribuye una solución efectiva y fácil de desplegar al campo de poda de LLM. Particularmente, sus ventajas en poda de modelos de lenguaje pequeños y compatibilidad de arquitectura le confieren buenas perspectivas de aplicación.