Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
- ID del Artículo: 2505.16743
- Título: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
- Autores: Florentin Beck (University of Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (University of Tübingen)
- Clasificación: cs.CL cs.AI cs.LG
- Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
- Enlace del Artículo: https://arxiv.org/abs/2505.16743
- Enlace del Código: https://github.com/flobk/TRIM
Los modelos de lenguaje de gran escala (LLMs) presentan desafíos computacionales y de memoria significativos debido a su enorme escala de parámetros, haciendo que la poda de modelos sea esencial para su despliegue eficiente. Los métodos de poda de una sola pasada existentes típicamente aplican restricciones de sparsidad uniformes entre capas o dentro de capas, mostrando un desempeño deficiente en tasas de sparsidad altas. Este artículo propone TRIM (Targeted Row-wise Iterative Metric-driven Pruning), un nuevo método que aplica tasas de sparsidad diferenciadas a cada dimensión de salida (fila) dentro de cada capa. TRIM emplea un proceso de ajuste iterativo guiado por métricas de calidad para optimizar la asignación de sparsidad a nivel de dimensión, enfocándose en reducir la varianza en la retención de calidad entre salidas para preservar información crítica. TRIM se integra sin problemas con estrategias de poda existentes a nivel de capa. Las evaluaciones de perplejidad y tareas de aprendizaje sin ejemplos en múltiples familias de LLM (Qwen2.5, LLaMA-2 y OPT) y niveles de sparsidad demuestran que TRIM logra resultados de última generación y mejora la estabilidad. Por ejemplo, con una sparsidad del 80%, TRIM reduce la perplejidad de Qwen2.5-14B en un 48% en comparación con métodos de referencia, y la de OPT-13B en más del 90%.
Con el crecimiento exponencial de la escala de parámetros en modelos de lenguaje de gran escala, el despliegue de modelos enfrenta desafíos severos de memoria y recursos computacionales. Aunque el crecimiento de parámetros aporta mejoras de rendimiento y capacidades emergentes, también hace que la inferencia en entornos con recursos limitados sea difícil.
- Restricciones de Sparsidad Uniformes: Los métodos de poda de una sola pasada existentes (como Wanda, OWL, AlphaPruning) típicamente aplican la misma tasa de sparsidad a todas las capas o a todas las dimensiones de salida dentro de una capa
- Degradación Severa de Rendimiento en Sparsidad Alta: En sparsidad extrema (>70%), las estrategias uniformes resultan en deterioro significativo del rendimiento
- Ignorancia de la Heterogeneidad de Dimensiones: Existen diferencias significativas en la sensibilidad a la poda e importancia entre diferentes dimensiones de salida
El artículo observa que los LLMs poseen características únicas de pesos y activaciones, como características atípicas prominentes y distribuciones de activación altamente sesgadas. Estas características sugieren que diferentes dimensiones de salida dentro de una capa tienen diferentes sensibilidades a la poda, requiriendo por lo tanto una estrategia de asignación de sparsidad más granular.
- Asignación de Sparsidad a Nivel de Dimensión Pionera: Propone el primer algoritmo que calcula tasas de sparsidad diferenciadas para cada dimensión de salida dentro de cada capa
- Rendimiento SOTA en Sparsidad Extrema: Con una sparsidad del 80%, reduce significativamente la perplejidad en comparación con métodos existentes (Qwen2.5-14B reducida en 48%, OPT-13B reducida en 90%+)
- Análisis Empírico Profundo: Revela la heterogeneidad de dimensiones de salida en sensibilidad a la poda e importancia en tareas posteriores
- Diseño Plug-and-Play: TRIM se puede integrar con cualquier algoritmo de poda basado en puntuaciones de importancia, con buena generalidad
Dado una matriz de pesos W ∈ R^(D×N), donde D es el número de dimensiones de salida y N es el número de dimensiones de entrada, el objetivo es determinar la tasa de sparsidad óptima Si para cada dimensión de salida Wi,: de modo que se maximice la calidad general de la capa mientras se satisface la restricción de tasa de sparsidad promedio.
TRIM define el vector de sparsidad a nivel de dimensión S = S1, S2, ..., SD, donde Si ∈ 0,1 especifica la tasa de sparsidad objetivo para la i-ésima dimensión de salida. La restricción es:
donde T es la tasa de sparsidad objetivo de la capa.
Algoritmo 1: Ajuste de Sparsidad Iterativo a Nivel de Dimensión
- Inicialización: Calcular salida sin podar Y ← WX, inicializar Si = T (distribución uniforme)
- Optimización Iterativa (K iteraciones):
- Podar según S actual para obtener Wpruned
- Calcular salida podada Ŷ ← WprunedX
- Evaluar calidad general qk ← Qmetric(Y, Ŷ)
- Actualizar configuración óptima (si qk > qbest)
- Calcular calidad por dimensión ci ← QmetricDimwise(Yi,:, Ŷi,:)
- Normalizar puntuaciones de calidad al rango 0,1
- Ajustar tasas de sparsidad basado en tasa de aprendizaje α: δi ← αc'i
- Recentrar para mantener restricción de promedio: Si ← δi - (1/D)Σδj + T
- Retornar: Asignación de sparsidad óptima Sbest
- Calidad a Nivel de Capa: Usar similitud de coseno para evaluar la calidad de poda de toda la capa
- Calidad a Nivel de Dimensión: Calcular similitud de coseno para cada dimensión de salida, guiando el ajuste de tasas de sparsidad
- Tasa de Aprendizaje Adaptativa: Soporta tasas de aprendizaje positivas y negativas; tasas positivas reducen la varianza de calidad, tasas negativas son aplicables a capas con valores atípicos concentrados
- Minimización de Varianza de Calidad: Mejorar el rendimiento general reduciendo la varianza en degradación de calidad entre dimensiones
- Diseño de Compatibilidad: Se puede integrar con reglas de puntuación existentes (Wanda, Magnitude, SparseGPT, GBLM)
- Modelos: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
- Datos de Evaluación: Conjunto de validación WikiText (perplejidad), C4 y Pile (verificación de generalización)
- Tareas Posteriores: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA
- Perplejidad: Evaluar capacidad de modelado de lenguaje en conjunto de validación WikiText
- Precisión de Aprendizaje Sin Ejemplos: Desempeño promedio en 7 tareas posteriores
- Métodos de Referencia: OWL, AlphaPruning (basado en Wanda)
- Estudios de Ablación: Impacto de diferentes métricas de calidad, configuraciones de tasa de aprendizaje, número de iteraciones
- Muestras de Calibración: Seleccionadas aleatoriamente del conjunto de datos C4, longitud de secuencia 2048
- Límites de Sparsidad: Máximo 95% por dimensión para prevenir sobreajuste
- Hiperparámetros: K=10 iteraciones, tasa de aprendizaje α determinada mediante búsqueda en cuadrícula
| Modelo | Línea Base OWL | OWL+TRIM | Magnitud de Mejora |
|---|
| Qwen2.5-14B | 348.48 | 180.67 | -48% |
| OPT-13B | 6461.43 | 324.14 | -95% |
| LLaMA-2-13B | 225.04 | 154.83 | -31% |
TRIM logra mejoras de rendimiento en todos los modelos probados y niveles de sparsidad, con mejoras promedio de 0.46-0.65 puntos porcentuales con sparsidad del 80%.
- Calidad a Nivel de Capa: La similitud de coseno muestra el desempeño más estable
- Calidad a Nivel de Dimensión: La similitud de coseno es más confiable que MSE y PSNR
TRIM muestra mejoras en diferentes reglas de puntuación como Magnitude, SparseGPT, GBLM, validando la generalidad del método.
El análisis del coeficiente de Gini revela diferencias significativas en la concentración de puntuaciones de importancia entre diferentes dimensiones de salida, resultando en diferentes sensibilidades a la poda.
Con el aumento de la tasa de sparsidad, la degradación de calidad muestra una tendencia acelerada, haciendo que la asignación refinada sea más importante.
Los experimentos muestran diferencias enormes en el impacto de eliminar completamente dimensiones individuales:
- Dimensión con norma L2 mínima: perplejidad aumenta solo 0.16
- Dimensión con norma L2 máxima: perplejidad se dispara a 273.10
- Métodos Basados en Gradientes: SNIP, GraSP, SynFlow, etc., requieren información de gradientes y reentrenamiento
- Métodos de Poda de Una Sola Pasada: SparseGPT, Wanda, etc., sin necesidad de reentrenamiento pero con rendimiento limitado
- Métodos Adaptativos a Nivel de Capa: OWL, AlphaPruning, etc., asignan diferentes tasas de sparsidad a diferentes capas
TRIM es el primer método que realiza asignación de sparsidad a nivel de dimensión dentro de capas, llenando el vacío en control granular de métodos existentes.
- Necesidad de Asignación de Sparsidad a Nivel de Dimensión: En sparsidad extrema, el control granular es crucial para mantener el rendimiento del modelo
- Efectividad de Minimización de Varianza de Calidad: Mejorar significativamente el rendimiento general equilibrando la degradación de calidad entre dimensiones
- Generalidad del Método: TRIM se puede integrar con múltiples algoritmos de poda existentes, con buena extensibilidad
- Complejidad en Selección de Tasa de Aprendizaje: Las capas con valores atípicos concentrados requieren tasas de aprendizaje negativas, aumentando la complejidad de ajuste de hiperparámetros
- Sparsidad No Estructurada: El método actual no soporta directamente patrones de sparsidad estructurada como n:m
- Costo Computacional: El proceso iterativo añade aproximadamente 8% de tiempo de ejecución
- Soporte para Sparsidad Estructurada: Extender TRIM para soportar patrones de sparsidad amigables con hardware
- Selección Automática de Tasa de Aprendizaje: Desarrollar mecanismos adaptativos para reducir necesidad de ajuste de hiperparámetros
- Análisis Teórico: Establecer marco teórico para importancia de dimensiones y sensibilidad a la poda
- Innovación Fuerte: Primera propuesta de asignación de sparsidad a nivel de dimensión, enfoque novedoso
- Experimentación Exhaustiva: Validación del método en múltiples familias de modelos y tareas
- Apoyo Teórico: Análisis profundo que revela las razones fundamentales de la efectividad del método
- Alto Valor Práctico: Diseño plug-and-play facilita integración en sistemas existentes
- Complejidad del Método: Aumenta complejidad algorítmica e hiperparámetros comparado con métodos de referencia
- Adaptabilidad de Hardware: La sparsidad no estructurada limita efectos de aceleración en hardware especializado
- Análisis Teórico Insuficiente: Carece de garantías teóricas para asignación de sparsidad óptima
- Contribución Académica: Proporciona nueva dirección de investigación para el campo de poda de LLM
- Valor Práctico: Significancia importante para despliegue de modelos grandes en entornos con recursos limitados
- Reproducibilidad: Proporciona código de código abierto, facilitando investigación posterior
- Requisitos de Sparsidad Extrema: Particularmente adecuado para escenarios que requieren >70% sparsidad
- Entornos con Recursos Limitados: Dispositivos periféricos, dispositivos móviles y otros escenarios con recursos computacionales limitados
- Propósitos de Investigación: Proporciona nuevos puntos de referencia e ideas para investigación de algoritmos de poda
El artículo cita trabajos importantes en el campo de poda, incluyendo:
- Métodos de poda clásicos: Le Cun et al. (1989), Han et al. (2015)
- Poda moderna de LLM: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
- Métodos adaptativos a nivel de capa: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning
Resumen: TRIM mejora significativamente el rendimiento de poda de LLM en sparsidad extrema mediante la introducción de asignación de sparsidad a nivel de dimensión. Este método posee valor teórico e importancia práctica significativos, abriendo nuevas direcciones de investigación en el campo de compresión de modelos grandes. A pesar de algunas limitaciones, su innovación y efectividad lo convierten en una contribución importante en este campo.