2025-11-17T08:49:21.061208

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

Zou, Yin, Pei et al.

Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.

academic

PermLLM: Permutación de Canales Aprendible para Modelos de Lenguaje Grande Dispersos N:M

Información Básica

ID del Artículo: 2510.10136
Título: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Autores: Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu (Universidad China de Hong Kong)
Clasificación: cs.LG cs.AI
Conferencia de Publicación: NeurIPS 2025 (39ª Conferencia sobre Sistemas de Procesamiento de Información Neural)
Enlace del Artículo: https://arxiv.org/abs/2510.10136
Enlace del Código: https://github.com/lanchengzou/PermLLM

Resumen

La permutación de canales es una técnica poderosa que mejora la precisión de modelos dispersos N:M mediante la reordenación de canales de matrices de pesos para preservar preferentemente pesos importantes. Sin embargo, los métodos tradicionales de permutación de canales dependen de métricas de calidad diseñadas manualmente, que a menudo no capturan con precisión el impacto real de la poda en el rendimiento del modelo. Para abordar esta limitación, este artículo propone PermLLM, un marco de poda posterior al entrenamiento de dispersidad N:M que introduce permutación de canales aprendible (LCP). LCP aprovecha la normalización de Sinkhorn para convertir matrices de permutación discretas en matrices de permutación suave diferenciables, permitiendo optimización de extremo a extremo. Además, PermLLM adopta una estrategia eficiente de permutación de canales por bloques, reduciendo significativamente la cantidad de parámetros aprendibles y la complejidad computacional. PermLLM se integra sin problemas con métodos de poda de una sola pasada existentes, optimizando adaptativamente la permutación de canales para mitigar efectivamente los errores inducidos por la poda.

Antecedentes de Investigación y Motivación

Definición del Problema

Problema Central: Los métodos tradicionales de permutación de canales utilizan métricas de calidad diseñadas manualmente (como la suma de importancia de pesos retenidos) para evaluar esquemas de permutación, pero existe una brecha entre estas métricas y el error de poda real.
Importancia: Con el rápido crecimiento del tamaño de los modelos de lenguaje grande, las técnicas de compresión de modelos (como la poda) son cruciales para el despliegue eficiente. La dispersidad N:M ha atraído considerable atención por su compatibilidad con hardware (soportada por NVIDIA Sparse Tensor Core).
Limitaciones Existentes:
- Las métricas de calidad diseñadas manualmente no pueden reflejar con precisión el impacto real de la poda en el rendimiento del modelo
- Los métodos tradicionales no pueden capturar completamente las interacciones complejas entre capas
- El espacio de optimización es enorme (para Cin canales de entrada, hay Cin! permutaciones posibles)

Motivación de la Investigación

El artículo demuestra el problema mediante un ejemplo concreto (Figura 1): la permutación de canales que maximiza las puntuaciones de importancia puede resultar en un error de salida mayor, indicando una diferencia fundamental entre las métricas diseñadas manualmente y el rendimiento real.

Contribuciones Principales

Primera Propuesta de Permutación de Canales Aprendible (LCP): Transforma el problema discreto de permutación de canales en un problema de optimización diferenciable, permitiendo aprendizaje de extremo a extremo.
Técnica de Normalización de Sinkhorn: Utiliza la normalización de Sinkhorn para relajar matrices de permutación discretas en matrices de permutación suave, resolviendo el problema de no diferenciabilidad de las matrices de permutación.
Estrategia de Permutación de Canales por Bloques: Reduce significativamente la complejidad de parámetros de O(C²ᵢₙ) a O(Cᵢₙ×B) y la complejidad computacional de O(C³ᵢₙ) a O(Cᵢₙ×B²).
Diseño de Marco Universal: Se integra sin problemas con métodos de poda de una sola pasada existentes (Wanda, RIA, etc.).
Rendimiento Experimental Excelente: Verifica la efectividad del método en múltiples modelos incluyendo series LLaMA, Qwen, OPT, etc.

Explicación Detallada del Método

Definición de la Tarea

Dada una matriz de pesos preentrenada W ∈ R^(Cout×Cin), el objetivo es encontrar la matriz de permutación óptima P tal que la matriz de pesos reordenada Ŵ = WP, después de aplicar dispersidad N:M, minimice la diferencia de salida con respecto al modelo denso original.

Arquitectura Técnica Principal

1. Relajación de Matriz de Permutación Suave

Relajar la matriz de permutación dura P en una matriz de permutación suave P̂:

S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)

donde Tr y Tc representan respectivamente operaciones de normalización por filas y columnas, y τ es un parámetro de temperatura que controla la dureza de la matriz de permutación suave.

2. Proceso de Endurecimiento y Aproximación de Gradiente

Durante la propagación hacia adelante, la matriz de permutación suave se endurece en una matriz de permutación estricta mediante el algoritmo húngaro:

P = argmax P∈P Tr(P⊤P̂)

Durante la propagación hacia atrás, se utiliza un estimador de paso directo (STE) para aproximar el gradiente: ∂P/∂P̂ = 1.

3. Permutación de Canales por Bloques

Para reducir la complejidad computacional, los canales se dividen en múltiples bloques de tamaño B, con permutación independiente dentro de cada bloque:

PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB

La cantidad de parámetros se reduce de C²ᵢₙ a Cᵢₙ×B, y la complejidad computacional se reduce de O(C³ᵢₙ) a O(Cᵢₙ×B²).

Objetivo de Optimización

PermLLM minimiza directamente la pérdida de similitud del coseno entre las salidas del modelo denso y disperso:

Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)

Integración con Métodos de Poda Existentes

PermLLM puede integrarse con cualquier método de poda de una sola pasada basado en métricas de importancia. Para una matriz de importancia dada S, la matriz de importancia permutada es Ŝ = SPB, y la máscara se obtiene mediante:

argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M

Se utiliza STE para manejar la no diferenciabilidad del argmax.

Configuración Experimental

Conjuntos de Datos y Modelos

Modelos: LLaMA 7B-13B, LLaMA-2 7B-13B, LLaMA-3.1 8B, Qwen-2.5 7B, OPT 6.7B
Datos de Calibración: 128 muestras seleccionadas aleatoriamente del conjunto de datos C4, cada una con 1024 tokens
Tareas de Evaluación:
- Modelado de lenguaje: Wikitext2 (perplejidad)
- Tareas de cero ejemplos: HellaSwag, ARC-Easy/Challenge, OpenBookQA, RTE

Métodos de Comparación

Métodos Base: SparseGPT, Wanda, RIA
Permutación de Canales Tradicional: Wanda+CP, RIA+CP
Método de este Artículo: PermLLMWanda, PermLLMRIA

Detalles de Implementación

Optimizador: AdamW
Tasa de Aprendizaje: {1e-3, 5e-3}
Iteraciones de Sinkhorn: 5
Parámetro de Temperatura: Decae linealmente de 1 a 0.1
Tamaño de Bloque: 64
Tiempo de Entrenamiento: Aproximadamente 2.5 horas para modelos de 7B (4 GPUs), aproximadamente 5.5 horas para modelos de 13B (8 GPUs)

Resultados Experimentales

Resultados Principales

Rendimiento de Modelado de Lenguaje (Perplejidad de Wikitext2)

Método	LLaMA 7B	LLaMA-2 7B	LLaMA-3.1 8B	Qwen-2.5 7B
Denso	5.68	5.47	6.24	7.74
Wanda	11.59	12.16	23.42	24.44
Wanda+CP	11.07	11.00	21.09	18.76
PermLLMWanda	9.41	9.39	14.03	13.58
RIA+CP	10.99	10.26	19.80	17.58
PermLLMRIA	9.95	9.60	15.79	15.93

Precisión Promedio en Tareas de Cero Ejemplos

Modelo	Wanda	Wanda+CP	PermLLMWanda	Mejora
LLaMA 7B	41.37	43.94	45.67	+4.3%
LLaMA-2 7B	42.12	43.44	46.59	+4.47%
LLaMA-3.1 8B	38.91	40.72	43.33	+4.42%

Efecto de Aceleración de Inferencia

Utilizando núcleos CUDA personalizados, la operación de permutación de canales logra una aceleración de 84× en comparación con la implementación de PyTorch, con una mejora de velocidad de inferencia general de aproximadamente 1.67×.

Experimentos de Ablación

Impacto del Número de Iteraciones de Normalización de Sinkhorn

Los experimentos muestran que un número de iteraciones de normalización de Sinkhorn de 5 logra un buen equilibrio de rendimiento.

Impacto del Tamaño de Bloque

Tamaño de Bloque	Precisión Promedio	Perplejidad de Wikitext2	Tiempo de Entrenamiento
32	43.58	9.50	2h
64	46.59	9.39	2.5h
128	47.09	9.07	6h

Un tamaño de bloque de 64 proporciona el mejor equilibrio entre rendimiento y eficiencia.

Robustez del Conjunto de Datos de Calibración

Los experimentos en diferentes conjuntos de datos de calibración (Pile, Wikitext2, C4) demuestran que el método posee buena robustez.

Análisis de Casos

El artículo proporciona visualizaciones de máscaras (Figura 3), mostrando que la permutación aprendida por PermLLM produce patrones de retención de pesos diferentes a los métodos tradicionales, verificando la efectividad de la optimización de extremo a extremo.

Trabajo Relacionado

Poda de Modelos de Lenguaje Grande

Poda Estructurada: Elimina estructuras de grano grueso (canales, capas, bloques)
Poda No Estructurada: La más flexible pero difícil de acelerar por hardware
Poda Semiestructurada: La dispersidad N:M equilibra flexibilidad y compatibilidad con hardware

Técnicas de Permutación de Canales

Los trabajos tempranos se enfocaban principalmente en búsqueda exhaustiva para redes a pequeña escala
RIA propuso un método heurístico de asignación de canales
Este artículo introduce por primera vez un método de optimización aprendible de extremo a extremo

Aprendizaje de Dispersidad N:M

Métodos como SR-STE entrenan modelos dispersos N:M desde cero
Métodos como MaskLLM aprenden dispersidad semiestructurada
Este artículo se enfoca en el escenario de poda posterior al entrenamiento

Conclusiones y Discusión

Conclusiones Principales

Efectividad del Método: PermLLM supera significativamente a los métodos tradicionales de permutación de canales en múltiples modelos y tareas
Universalidad: Se integra sin problemas con métodos de poda existentes
Practicidad: Logra eficiencia computacional práctica mediante estrategia de bloques y núcleos CUDA personalizados

Limitaciones

Costo Computacional: Aunque la estrategia de bloques reduce significativamente la complejidad, aún requiere más recursos computacionales que los métodos tradicionales
Rango de Aplicación: El método está específicamente diseñado para poda semiestructurada, y la aplicación en otras tareas de compresión (como cuantización) requiere exploración adicional
Convergencia: Los tamaños de bloque grandes requieren más iteraciones para converger

Direcciones Futuras

Explorar aplicaciones en otras tareas de compresión de modelos como cuantización
Mejorar aún más la eficiencia del entrenamiento
Investigar estrategias de optimización de capas parciales más eficientes

Evaluación Profunda

Fortalezas

Innovación Técnica Fuerte: Primera transformación del problema de permutación de canales en un problema aprendible de extremo a extremo, con una ruta técnica novedosa
Fundamentos Teóricos Sólidos: El uso combinado de normalización de Sinkhorn y STE es teóricamente razonable
Experimentos Exhaustivos: Evaluación integral en múltiples modelos, conjuntos de datos y tareas
Implementación de Ingeniería Completa: Proporciona núcleos CUDA personalizados, considerando necesidades de despliegue práctico
Escritura Clara: Estructura del artículo clara, descripción técnica precisa

Deficiencias

Costo Computacional: Aunque existe estrategia de bloques, el costo de entrenamiento sigue siendo relativamente alto
Análisis Teórico Insuficiente: Falta análisis de convergencia y garantías teóricas
Limitación de Rango de Aplicación: Principalmente aplicable a dispersidad N:M, la generalización requiere verificación
Comparación de Líneas Base: Comparación insuficiente con algunos métodos de poda más recientes

Impacto

Valor Académico: Abre un nuevo camino técnico para la investigación de permutación de canales
Valor Práctico: Tiene aplicación directa en el campo de la compresión de modelos de lenguaje grande
Reproducibilidad: Proporciona implementación de código completa y configuración experimental detallada

Escenarios Aplicables

Despliegue de Modelos de Lenguaje Grande: Particularmente adecuado para escenarios de despliegue disperso N:M que requieren aceleración por hardware
Entornos con Recursos Limitados: En casos con recursos computacionales suficientes, persigue mayor calidad de compresión
Prototipos de Investigación: Proporciona fundamentos técnicos para investigación adicional en poda y compresión

Referencias

El artículo cita 66 referencias relacionadas, cubriendo principalmente:

Trabajos fundamentales de modelos de lenguaje grande (GPT, LLaMA, etc.)
Métodos clásicos de poda de redes (Magnitude Pruning, SparseGPT, etc.)
Investigación relacionada con dispersidad N:M (RIA, SR-STE, etc.)
Fundamentos de teoría de optimización (Normalización de Sinkhorn, Algoritmo Húngaro, etc.)

Evaluación General: Este es un artículo de alta calidad con fuerte innovación técnica, experimentos exhaustivos e implementación de ingeniería completa. Al transformar problemas de optimización discreta en problemas de optimización continua, aporta un avance revolucionario a la tecnología de permutación de canales. Aunque existen limitaciones en costo computacional y rango de aplicación, su contribución al campo de la compresión de modelos de lenguaje grande es significativa, con importante valor académico y práctico.