2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff

Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM

academic

TRIM: Lograr Sparsidad Extrema con Poda Iterativa Métrica-Dirigida por Filas Específicas

Información Básica

ID del Artículo: 2505.16743
Título: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
Autores: Florentin Beck (University of Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (University of Tübingen)
Clasificación: cs.CL cs.AI cs.LG
Fecha de Publicación: 11 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2505.16743
Enlace del Código: https://github.com/flobk/TRIM

Resumen

Los modelos de lenguaje de gran escala (LLMs) presentan desafíos computacionales y de memoria significativos debido a su enorme escala de parámetros, haciendo que la poda de modelos sea esencial para su despliegue eficiente. Los métodos de poda de una sola pasada existentes típicamente aplican restricciones de sparsidad uniformes entre capas o dentro de capas, mostrando un desempeño deficiente en tasas de sparsidad altas. Este artículo propone TRIM (Targeted Row-wise Iterative Metric-driven Pruning), un nuevo método que aplica tasas de sparsidad diferenciadas a cada dimensión de salida (fila) dentro de cada capa. TRIM emplea un proceso de ajuste iterativo guiado por métricas de calidad para optimizar la asignación de sparsidad a nivel de dimensión, enfocándose en reducir la varianza en la retención de calidad entre salidas para preservar información crítica. TRIM se integra sin problemas con estrategias de poda existentes a nivel de capa. Las evaluaciones de perplejidad y tareas de aprendizaje sin ejemplos en múltiples familias de LLM (Qwen2.5, LLaMA-2 y OPT) y niveles de sparsidad demuestran que TRIM logra resultados de última generación y mejora la estabilidad. Por ejemplo, con una sparsidad del 80%, TRIM reduce la perplejidad de Qwen2.5-14B en un 48% en comparación con métodos de referencia, y la de OPT-13B en más del 90%.

Contexto de Investigación y Motivación

Definición del Problema

Con el crecimiento exponencial de la escala de parámetros en modelos de lenguaje de gran escala, el despliegue de modelos enfrenta desafíos severos de memoria y recursos computacionales. Aunque el crecimiento de parámetros aporta mejoras de rendimiento y capacidades emergentes, también hace que la inferencia en entornos con recursos limitados sea difícil.

Limitaciones de Métodos Existentes

Restricciones de Sparsidad Uniformes: Los métodos de poda de una sola pasada existentes (como Wanda, OWL, AlphaPruning) típicamente aplican la misma tasa de sparsidad a todas las capas o a todas las dimensiones de salida dentro de una capa
Degradación Severa de Rendimiento en Sparsidad Alta: En sparsidad extrema (>70%), las estrategias uniformes resultan en deterioro significativo del rendimiento
Ignorancia de la Heterogeneidad de Dimensiones: Existen diferencias significativas en la sensibilidad a la poda e importancia entre diferentes dimensiones de salida

Motivación de la Investigación

El artículo observa que los LLMs poseen características únicas de pesos y activaciones, como características atípicas prominentes y distribuciones de activación altamente sesgadas. Estas características sugieren que diferentes dimensiones de salida dentro de una capa tienen diferentes sensibilidades a la poda, requiriendo por lo tanto una estrategia de asignación de sparsidad más granular.

Contribuciones Principales

Asignación de Sparsidad a Nivel de Dimensión Pionera: Propone el primer algoritmo que calcula tasas de sparsidad diferenciadas para cada dimensión de salida dentro de cada capa
Rendimiento SOTA en Sparsidad Extrema: Con una sparsidad del 80%, reduce significativamente la perplejidad en comparación con métodos existentes (Qwen2.5-14B reducida en 48%, OPT-13B reducida en 90%+)
Análisis Empírico Profundo: Revela la heterogeneidad de dimensiones de salida en sensibilidad a la poda e importancia en tareas posteriores
Diseño Plug-and-Play: TRIM se puede integrar con cualquier algoritmo de poda basado en puntuaciones de importancia, con buena generalidad

Explicación Detallada del Método

Definición de la Tarea

Dado una matriz de pesos W ∈ R^(D×N), donde D es el número de dimensiones de salida y N es el número de dimensiones de entrada, el objetivo es determinar la tasa de sparsidad óptima Si para cada dimensión de salida Wi,: de modo que se maximice la calidad general de la capa mientras se satisface la restricción de tasa de sparsidad promedio.

Algoritmo Principal: TRIM

Vector de Sparsidad a Nivel de Dimensión

TRIM define el vector de sparsidad a nivel de dimensión S = S1, S2, ..., SD, donde Si ∈ 0,1 especifica la tasa de sparsidad objetivo para la i-ésima dimensión de salida. La restricción es:

1/D * Σ(i=1 a D) Si = T

donde T es la tasa de sparsidad objetivo de la capa.

Algoritmo de Ajuste Iterativo

Algoritmo 1: Ajuste de Sparsidad Iterativo a Nivel de Dimensión

Inicialización: Calcular salida sin podar Y ← WX, inicializar Si = T (distribución uniforme)
Optimización Iterativa (K iteraciones):
- Podar según S actual para obtener Wpruned
- Calcular salida podada Ŷ ← WprunedX
- Evaluar calidad general qk ← Qmetric(Y, Ŷ)
- Actualizar configuración óptima (si qk > qbest)
- Calcular calidad por dimensión ci ← QmetricDimwise(Yi,:, Ŷi,:)
- Normalizar puntuaciones de calidad al rango 0,1
- Ajustar tasas de sparsidad basado en tasa de aprendizaje α: δi ← αc'i
- Recentrar para mantener restricción de promedio: Si ← δi - (1/D)Σδj + T
Retornar: Asignación de sparsidad óptima Sbest

Métricas de Calidad

Calidad a Nivel de Capa: Usar similitud de coseno para evaluar la calidad de poda de toda la capa
Calidad a Nivel de Dimensión: Calcular similitud de coseno para cada dimensión de salida, guiando el ajuste de tasas de sparsidad

Puntos de Innovación Técnica

Tasa de Aprendizaje Adaptativa: Soporta tasas de aprendizaje positivas y negativas; tasas positivas reducen la varianza de calidad, tasas negativas son aplicables a capas con valores atípicos concentrados
Minimización de Varianza de Calidad: Mejorar el rendimiento general reduciendo la varianza en degradación de calidad entre dimensiones
Diseño de Compatibilidad: Se puede integrar con reglas de puntuación existentes (Wanda, Magnitude, SparseGPT, GBLM)

Configuración Experimental

Conjuntos de Datos

Modelos: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
Datos de Evaluación: Conjunto de validación WikiText (perplejidad), C4 y Pile (verificación de generalización)
Tareas Posteriores: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA

Métricas de Evaluación

Perplejidad: Evaluar capacidad de modelado de lenguaje en conjunto de validación WikiText
Precisión de Aprendizaje Sin Ejemplos: Desempeño promedio en 7 tareas posteriores

Métodos de Comparación

Métodos de Referencia: OWL, AlphaPruning (basado en Wanda)
Estudios de Ablación: Impacto de diferentes métricas de calidad, configuraciones de tasa de aprendizaje, número de iteraciones

Detalles de Implementación

Muestras de Calibración: Seleccionadas aleatoriamente del conjunto de datos C4, longitud de secuencia 2048
Límites de Sparsidad: Máximo 95% por dimensión para prevenir sobreajuste
Hiperparámetros: K=10 iteraciones, tasa de aprendizaje α determinada mediante búsqueda en cuadrícula

Resultados Experimentales

Resultados Principales

Desempeño de Perplejidad (Sparsidad 80%)

Modelo	Línea Base OWL	OWL+TRIM	Magnitud de Mejora
Qwen2.5-14B	348.48	180.67	-48%
OPT-13B	6461.43	324.14	-95%
LLaMA-2-13B	225.04	154.83	-31%

Desempeño en Tareas de Aprendizaje Sin Ejemplos

TRIM logra mejoras de rendimiento en todos los modelos probados y niveles de sparsidad, con mejoras promedio de 0.46-0.65 puntos porcentuales con sparsidad del 80%.

Experimentos de Ablación

Comparación de Métricas de Calidad

Calidad a Nivel de Capa: La similitud de coseno muestra el desempeño más estable
Calidad a Nivel de Dimensión: La similitud de coseno es más confiable que MSE y PSNR

Generalización a Diferentes Indicadores de Poda

TRIM muestra mejoras en diferentes reglas de puntuación como Magnitude, SparseGPT, GBLM, validando la generalidad del método.

Hallazgos Clave

Observación 1: Heterogeneidad de Dimensiones

El análisis del coeficiente de Gini revela diferencias significativas en la concentración de puntuaciones de importancia entre diferentes dimensiones de salida, resultando en diferentes sensibilidades a la poda.

Observación 2: Degradación de Calidad No Lineal

Con el aumento de la tasa de sparsidad, la degradación de calidad muestra una tendencia acelerada, haciendo que la asignación refinada sea más importante.

Observación 3: Diferencias en Importancia de Dimensiones

Los experimentos muestran diferencias enormes en el impacto de eliminar completamente dimensiones individuales:

Dimensión con norma L2 mínima: perplejidad aumenta solo 0.16
Dimensión con norma L2 máxima: perplejidad se dispara a 273.10

Trabajo Relacionado

Clasificación de Métodos de Poda

Métodos Basados en Gradientes: SNIP, GraSP, SynFlow, etc., requieren información de gradientes y reentrenamiento
Métodos de Poda de Una Sola Pasada: SparseGPT, Wanda, etc., sin necesidad de reentrenamiento pero con rendimiento limitado
Métodos Adaptativos a Nivel de Capa: OWL, AlphaPruning, etc., asignan diferentes tasas de sparsidad a diferentes capas

Posicionamiento de TRIM

TRIM es el primer método que realiza asignación de sparsidad a nivel de dimensión dentro de capas, llenando el vacío en control granular de métodos existentes.

Conclusiones y Discusión

Conclusiones Principales

Necesidad de Asignación de Sparsidad a Nivel de Dimensión: En sparsidad extrema, el control granular es crucial para mantener el rendimiento del modelo
Efectividad de Minimización de Varianza de Calidad: Mejorar significativamente el rendimiento general equilibrando la degradación de calidad entre dimensiones
Generalidad del Método: TRIM se puede integrar con múltiples algoritmos de poda existentes, con buena extensibilidad

Limitaciones

Complejidad en Selección de Tasa de Aprendizaje: Las capas con valores atípicos concentrados requieren tasas de aprendizaje negativas, aumentando la complejidad de ajuste de hiperparámetros
Sparsidad No Estructurada: El método actual no soporta directamente patrones de sparsidad estructurada como n:m
Costo Computacional: El proceso iterativo añade aproximadamente 8% de tiempo de ejecución

Direcciones Futuras

Soporte para Sparsidad Estructurada: Extender TRIM para soportar patrones de sparsidad amigables con hardware
Selección Automática de Tasa de Aprendizaje: Desarrollar mecanismos adaptativos para reducir necesidad de ajuste de hiperparámetros
Análisis Teórico: Establecer marco teórico para importancia de dimensiones y sensibilidad a la poda

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera propuesta de asignación de sparsidad a nivel de dimensión, enfoque novedoso
Experimentación Exhaustiva: Validación del método en múltiples familias de modelos y tareas
Apoyo Teórico: Análisis profundo que revela las razones fundamentales de la efectividad del método
Alto Valor Práctico: Diseño plug-and-play facilita integración en sistemas existentes

Deficiencias

Complejidad del Método: Aumenta complejidad algorítmica e hiperparámetros comparado con métodos de referencia
Adaptabilidad de Hardware: La sparsidad no estructurada limita efectos de aceleración en hardware especializado
Análisis Teórico Insuficiente: Carece de garantías teóricas para asignación de sparsidad óptima

Impacto

Contribución Académica: Proporciona nueva dirección de investigación para el campo de poda de LLM
Valor Práctico: Significancia importante para despliegue de modelos grandes en entornos con recursos limitados
Reproducibilidad: Proporciona código de código abierto, facilitando investigación posterior

Escenarios Aplicables

Requisitos de Sparsidad Extrema: Particularmente adecuado para escenarios que requieren >70% sparsidad
Entornos con Recursos Limitados: Dispositivos periféricos, dispositivos móviles y otros escenarios con recursos computacionales limitados
Propósitos de Investigación: Proporciona nuevos puntos de referencia e ideas para investigación de algoritmos de poda

Referencias

El artículo cita trabajos importantes en el campo de poda, incluyendo:

Métodos de poda clásicos: Le Cun et al. (1989), Han et al. (2015)
Poda moderna de LLM: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
Métodos adaptativos a nivel de capa: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning

Resumen: TRIM mejora significativamente el rendimiento de poda de LLM en sparsidad extrema mediante la introducción de asignación de sparsidad a nivel de dimensión. Este método posee valor teórico e importancia práctica significativos, abriendo nuevas direcciones de investigación en el campo de compresión de modelos grandes. A pesar de algunas limitaciones, su innovación y efectividad lo convierten en una contribución importante en este campo.