2025-11-17T08:49:21.061208

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

Zou, Yin, Pei et al.

Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.

academic

PermLLM: Permutazione di Canale Apprendibile per Modelli di Linguaggio di Grandi Dimensioni N:M Sparsi

Informazioni Fondamentali

ID Articolo: 2510.10136
Titolo: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Autori: Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu (Università Cinese di Hong Kong)
Classificazione: cs.LG cs.AI
Conferenza di Pubblicazione: NeurIPS 2025 (39ª Conferenza sui Sistemi di Elaborazione dell'Informazione Neurale)
Link Articolo: https://arxiv.org/abs/2510.10136
Link Codice: https://github.com/lanchengzou/PermLLM

Riassunto

La permutazione di canale è una tecnica potente che migliora l'accuratezza dei modelli N:M sparsi riordinando i canali delle matrici di peso per preservare prioritariamente i pesi importanti. Tuttavia, i metodi tradizionali di permutazione di canale si basano su metriche di qualità progettate manualmente, che spesso non riescono a catturare accuratamente l'impatto reale della potatura sulle prestazioni del modello. Per affrontare questa limitazione, questo articolo propone PermLLM, un framework di potatura post-addestramento per la sparsità N:M che introduce la permutazione di canale apprendibile (LCP). LCP sfrutta la normalizzazione di Sinkhorn per convertire le matrici di permutazione discrete in matrici di permutazione soft differenziabili, consentendo l'ottimizzazione end-to-end. Inoltre, PermLLM adotta una strategia efficiente di permutazione di canale a blocchi, riducendo significativamente il numero di parametri apprendibili e la complessità computazionale. PermLLM si integra perfettamente con i metodi di potatura one-shot esistenti, ottimizzando adattivamente la permutazione di canale per mitigare efficacemente gli errori causati dalla potatura.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: I metodi tradizionali di permutazione di canale utilizzano metriche di qualità progettate manualmente (come la somma dell'importanza dei pesi conservati) per valutare gli schemi di permutazione, ma esiste un divario tra queste metriche e l'errore di potatura effettivo.
Importanza: Con la rapida crescita della scala dei modelli di linguaggio di grandi dimensioni, le tecniche di compressione del modello (come la potatura) sono cruciali per il dispiegamento efficiente. La sparsità N:M attrae grande attenzione per la sua compatibilità hardware (supportata da NVIDIA Sparse Tensor Core).
Limitazioni Esistenti:
- Le metriche di qualità progettate manualmente non riescono a riflettere accuratamente l'impatto reale della potatura sulle prestazioni del modello
- I metodi tradizionali non riescono a catturare pienamente le complesse interazioni tra strati
- Lo spazio di ottimizzazione è enorme (per Cin canali di input, ci sono Cin! possibili permutazioni)

Motivazione della Ricerca

L'articolo dimostra il problema attraverso un esempio concreto (Figura 1): la permutazione di canale che massimizza i punteggi di importanza può portare a errori di output maggiori, indicando una differenza sostanziale tra le metriche progettate manualmente e le prestazioni effettive.

Contributi Principali

Prima Proposta di Permutazione di Canale Apprendibile (LCP): Trasforma il problema discreto della permutazione di canale in un problema di ottimizzazione differenziabile, consentendo l'apprendimento end-to-end.
Tecnica di Normalizzazione di Sinkhorn: Sfrutta la normalizzazione di Sinkhorn per rilassare le matrici di permutazione discrete in matrici di permutazione soft, risolvendo il problema della non-differenziabilità delle matrici di permutazione.
Strategia di Permutazione di Canale a Blocchi: Riduce significativamente la complessità dei parametri da O(C²ᵢₙ) a O(Cᵢₙ×B) e la complessità computazionale da O(C³ᵢₙ) a O(Cᵢₙ×B²).
Progettazione di Framework Universale: Può integrarsi perfettamente con i metodi di potatura one-shot esistenti (Wanda, RIA, ecc.).
Prestazioni Sperimentali Eccellenti: Verifica l'efficacia del metodo su più modelli inclusi LLaMA, Qwen, OPT e altri.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Data una matrice di peso pre-addestrata W ∈ R^(Cout×Cin), l'obiettivo è trovare la matrice di permutazione ottimale P tale che la matrice di peso riordinata Ŵ = WP, dopo l'applicazione della sparsità N:M, possa minimizzare la differenza di output rispetto al modello denso originale.

Architettura Tecnica Principale

1. Rilassamento della Matrice di Permutazione Soft

Rilassa la matrice di permutazione hard P in una matrice di permutazione soft P̂:

S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)

dove Tr e Tc rappresentano rispettivamente le operazioni di normalizzazione per righe e colonne, e τ è il parametro di temperatura che controlla la durezza della matrice di permutazione soft.

2. Processo di Indurimento e Approssimazione del Gradiente

Durante la propagazione in avanti, la matrice di permutazione soft viene indurita in una matrice di permutazione rigorosa tramite l'algoritmo ungherese:

P = argmax P∈P Tr(P⊤P̂)

Durante la retropropagazione, viene utilizzato uno stimatore straight-through (STE) per approssimare il gradiente: ∂P/∂P̂ = 1.

3. Permutazione di Canale a Blocchi

Per ridurre la complessità computazionale, i canali vengono divisi in più blocchi di dimensione B, con permutazione indipendente all'interno di ogni blocco:

PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB

Il numero di parametri viene ridotto da C²ᵢₙ a Cᵢₙ×B, e la complessità computazionale viene ridotta da O(C³ᵢₙ) a O(Cᵢₙ×B²).

Obiettivo di Ottimizzazione

PermLLM minimizza direttamente la perdita di somiglianza del coseno tra gli output del modello denso e del modello sparso:

Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)

Integrazione con Metodi di Potatura Esistenti

PermLLM può integrarsi con qualsiasi metodo di potatura one-shot basato su metriche di importanza. Per una data matrice di importanza S, la matrice di importanza permutata è Ŝ = SPB, e la maschera viene ottenuta nel modo seguente:

argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M

Utilizza STE per gestire la non-differenziabilità dell'operazione argmax.

Configurazione Sperimentale

Dataset e Modelli

Modelli: LLaMA 7B-13B, LLaMA-2 7B-13B, LLaMA-3.1 8B, Qwen-2.5 7B, OPT 6.7B
Dati di Calibrazione: 128 campioni selezionati casualmente dal dataset C4, ciascuno contenente 1024 token
Compiti di Valutazione:
- Modellazione del linguaggio: Wikitext2 (perplessità)
- Compiti zero-shot: HellaSwag, ARC-Easy/Challenge, OpenBookQA, RTE

Metodi di Confronto

Metodi di Base: SparseGPT, Wanda, RIA
Permutazione di Canale Tradizionale: Wanda+CP, RIA+CP
Metodo Proposto: PermLLMWanda, PermLLMRIA

Dettagli di Implementazione

Ottimizzatore: AdamW
Tasso di Apprendimento: {1e-3, 5e-3}
Numero di Iterazioni di Sinkhorn: 5
Parametro di Temperatura: Decremento lineare da 1 a 0.1
Dimensione del Blocco: 64
Tempo di Addestramento: Circa 2.5 ore per modello 7B (4 GPU), circa 5.5 ore per modello 13B (8 GPU)

Risultati Sperimentali

Risultati Principali

Prestazioni di Modellazione del Linguaggio (Perplessità Wikitext2)

Metodo	LLaMA 7B	LLaMA-2 7B	LLaMA-3.1 8B	Qwen-2.5 7B
Dense	5.68	5.47	6.24	7.74
Wanda	11.59	12.16	23.42	24.44
Wanda+CP	11.07	11.00	21.09	18.76
PermLLMWanda	9.41	9.39	14.03	13.58
RIA+CP	10.99	10.26	19.80	17.58
PermLLMRIA	9.95	9.60	15.79	15.93

Accuratezza Media dei Compiti Zero-Shot

Modello	Wanda	Wanda+CP	PermLLMWanda	Miglioramento
LLaMA 7B	41.37	43.94	45.67	+4.3%
LLaMA-2 7B	42.12	43.44	46.59	+4.47%
LLaMA-3.1 8B	38.91	40.72	43.33	+4.42%

Effetto di Accelerazione dell'Inferenza

Utilizzando kernel CUDA personalizzati, l'operazione di permutazione di canale ottiene un'accelerazione di 84× rispetto all'implementazione PyTorch, con una velocità di inferenza complessiva migliorata di circa 1.67×.

Esperimenti di Ablazione

Impatto del Numero di Iterazioni di Normalizzazione di Sinkhorn

Gli esperimenti mostrano che un numero di iterazioni di normalizzazione di Sinkhorn pari a 5 raggiunge un buon equilibrio di prestazioni.

Impatto della Dimensione del Blocco

Dimensione Blocco	Accuratezza Media	Perplessità Wikitext2	Tempo di Addestramento
32	43.58	9.50	2h
64	46.59	9.39	2.5h
128	47.09	9.07	6h

Una dimensione di blocco di 64 fornisce il miglior equilibrio tra prestazioni ed efficienza.

Robustezza del Dataset di Calibrazione

Gli esperimenti su diversi dataset di calibrazione (Pile, Wikitext2, C4) dimostrano la buona robustezza del metodo.

Analisi dei Casi

L'articolo fornisce visualizzazioni di maschere (Figura 3), mostrando che la permutazione appresa da PermLLM produce modelli di conservazione dei pesi diversi dai metodi tradizionali, verificando l'efficacia dell'ottimizzazione end-to-end.

Lavori Correlati

Potatura di Modelli di Linguaggio di Grandi Dimensioni

Potatura Strutturata: Rimozione di strutture a grana grossa (canali, strati, blocchi)
Potatura Non Strutturata: Più flessibile ma difficile da accelerare hardware
Potatura Semi-Strutturata: La sparsità N:M bilancia flessibilità e compatibilità hardware

Tecniche di Permutazione di Canale

I lavori iniziali si concentravano principalmente sulla ricerca esaustiva per reti di piccole dimensioni
RIA ha proposto un metodo di assegnazione di canale euristico
Questo articolo introduce per la prima volta un metodo di ottimizzazione end-to-end apprendibile

Apprendimento della Sparsità N:M

Metodi come SR-STE addestrano modelli N:M sparsi da zero
Metodi come MaskLLM apprendono la sparsità semi-strutturata
Questo articolo si concentra sullo scenario di potatura post-addestramento

Conclusioni e Discussione

Conclusioni Principali

Efficacia del Metodo: PermLLM supera significativamente i metodi tradizionali di permutazione di canale su più modelli e compiti
Universalità: Può integrarsi perfettamente con i metodi di potatura esistenti
Praticità: Realizza efficienza computazionale pratica attraverso strategie di blocco e kernel CUDA personalizzati

Limitazioni

Costi Computazionali: Nonostante la strategia di blocco riduca significativamente la complessità, richiede ancora più risorse computazionali rispetto ai metodi tradizionali
Ambito di Applicazione: Il metodo è specificamente orientato alla potatura semi-strutturata, e l'applicazione ad altri compiti di compressione (come la quantizzazione) rimane da esplorare
Convergenza: Dimensioni di blocco maggiori richiedono più iterazioni per convergere

Direzioni Future

Esplorare l'applicazione in altri compiti di compressione del modello come la quantizzazione
Migliorare ulteriormente l'efficienza dell'addestramento
Ricercare strategie di ottimizzazione parziale di strati più efficienti

Valutazione Approfondita

Punti di Forza

Forte Innovazione Tecnica: Trasforma per la prima volta il problema della permutazione di canale in un problema apprendibile end-to-end, con una rotta tecnica innovativa
Fondamenti Teorici Solidi: L'uso combinato della normalizzazione di Sinkhorn e STE è teoricamente ragionevole
Esperimenti Completi: Valutazione completa su più modelli, dataset e compiti
Implementazione Ingegneristica Perfezionata: Fornisce kernel CUDA personalizzati, considerando le esigenze di dispiegamento pratico
Scrittura Chiara: La struttura dell'articolo è chiara e i dettagli tecnici sono descritti accuratamente

Insufficienze

Costi Computazionali: Anche con la strategia di blocco, i costi di addestramento rimangono relativamente alti
Analisi Teorica Insufficiente: Mancano analisi di convergenza e garanzie teoriche
Limitazioni dell'Ambito di Applicazione: Principalmente applicabile alla sparsità N:M, la generalizzabilità rimane da verificare
Confronto di Base Incompleto: Il confronto con alcuni metodi di potatura più recenti non è sufficientemente completo

Impatto

Valore Accademico: Apre un nuovo percorso tecnico per la ricerca sulla permutazione di canale
Valore Pratico: Ha valore di applicazione diretta nel campo della compressione dei modelli di linguaggio di grandi dimensioni
Riproducibilità: Fornisce implementazione completa del codice e configurazione sperimentale dettagliata

Scenari Applicabili

Dispiegamento di Modelli di Linguaggio di Grandi Dimensioni: Particolarmente adatto a scenari di dispiegamento N:M sparso che richiedono accelerazione hardware
Ambienti con Risorse Limitate: Quando le risorse computazionali sono sufficienti, persegue una qualità di compressione più elevata
Prototipi di Ricerca: Fornisce fondamenti tecnici per ulteriore ricerca su potatura e compressione

Riferimenti Bibliografici

L'articolo cita 66 riferimenti correlati, principalmente coprendo:

Lavori fondamentali su modelli di linguaggio di grandi dimensioni (GPT, LLaMA, ecc.)
Metodi classici di potatura di reti (Magnitude Pruning, SparseGPT, ecc.)
Ricerca correlata alla sparsità N:M (RIA, SR-STE, ecc.)
Fondamenti di teoria dell'ottimizzazione (Normalizzazione di Sinkhorn, Algoritmo Ungherese, ecc.)

Valutazione Complessiva: Questo è un articolo di alta qualità con forte innovazione tecnica, esperimenti completi e implementazione ingegneristica perfezionata. Trasformando il problema di ottimizzazione discreta in un problema di ottimizzazione continua, porta un progresso rivoluzionario nella tecnologia di permutazione di canale. Nonostante le limitazioni nei costi computazionali e nell'ambito di applicazione, il suo contributo nel campo della compressione dei modelli di linguaggio di grandi dimensioni è significativo, con importante valore accademico e pratico.