2025-11-17T08:49:21.061208

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

Zou, Yin, Pei et al.

Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.

academic

PermLLM: Lernbare Kanalvertauschung für N:M-spärliche große Sprachmodelle

Grundlegende Informationen

Papier-ID: 2510.10136
Titel: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Autoren: Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu (Chinesische Universität Hongkong)
Klassifizierung: cs.LG cs.AI
Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz über neuronale Informationsverarbeitungssysteme)
Papierlink: https://arxiv.org/abs/2510.10136
Codelink: https://github.com/lanchengzou/PermLLM

Zusammenfassung

Die Kanalvertauschung ist eine leistungsstarke Technik zur Verbesserung der Genauigkeit von N:M-spärlichen Modellen durch Neuordnung der Kanäle von Gewichtsmatrizen, um wichtige Gewichte bevorzugt zu erhalten. Herkömmliche Kanalvertauschungsmethoden beruhen jedoch auf handwerklich gestalteten Qualitätskennzahlen, die oft nicht genau erfassen, wie sich das Pruning auf die Modellleistung auswirkt. Um diese Einschränkung zu beheben, stellen wir PermLLM vor, ein Framework für das Post-Training-Pruning mit N:M-Spärlichkeit, das lernbare Kanalvertauschung (LCP) einführt. LCP nutzt die Sinkhorn-Normalisierung, um diskrete Vertauschungsmatrizen in differenzierbare weiche Vertauschungsmatrizen umzuwandeln und ermöglicht End-to-End-Optimierung. Darüber hinaus setzt PermLLM eine effiziente Blockweise-Kanalvertauschungsstrategie ein, die die Anzahl der lernbaren Parameter und die Rechenkomplexität erheblich reduziert. PermLLM lässt sich nahtlos in bestehende One-Shot-Pruning-Methoden integrieren und optimiert die Kanalvertauschung adaptiv, um Pruning-induzierte Fehler wirksam zu mindern.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Herkömmliche Kanalvertauschungsmethoden verwenden handwerklich gestaltete Qualitätskennzahlen (wie die Summe der Gewichtswichtigkeit), um Vertauschungsschemata zu bewerten, aber diese Kennzahlen weichen vom tatsächlichen Pruning-Fehler ab.
Bedeutung: Mit dem rasanten Wachstum der Größe großer Sprachmodelle sind Modellkomprimierungstechniken (wie Pruning) für eine effiziente Bereitstellung entscheidend. N:M-Spärlichkeit wird wegen ihrer Hardwarefreundlichkeit (Unterstützung durch NVIDIA Sparse Tensor Core) sehr beachtet.
Bestehende Einschränkungen:
- Handwerklich gestaltete Qualitätskennzahlen können nicht genau widerspiegeln, wie sich das Pruning auf die Modellleistung auswirkt
- Herkömmliche Methoden können komplexe Schicht-zu-Schicht-Wechselwirkungen nicht vollständig erfassen
- Der Optimierungsraum ist riesig (für Cin Eingabekanäle gibt es Cin! mögliche Vertauschungen)

Forschungsmotivation

Das Papier zeigt das Problem anhand eines konkreten Beispiels (Abbildung 1): Die Kanalvertauschung, die Wichtigkeitswerte maximiert, kann zu größeren Ausgabefehlern führen, was zeigt, dass ein grundlegender Unterschied zwischen handwerklichen Kennzahlen und tatsächlicher Leistung besteht.

Kernbeiträge

Erstmalige Einführung von lernbarer Kanalvertauschung (LCP): Umwandlung des diskreten Kanalvertauschungsproblems in ein differenzierbares Optimierungsproblem, um End-to-End-Lernen zu ermöglichen.
Sinkhorn-Normalisierungstechnik: Nutzung der Sinkhorn-Normalisierung zur Lockerung diskreter Vertauschungsmatrizen zu weichen Vertauschungsmatrizen, um das Nicht-Differenzierungsproblem von Vertauschungsmatrizen zu lösen.
Blockweise Kanalvertauschungsstrategie: Signifikante Reduzierung der Parameterkomplexität von O(C²ᵢₙ) auf O(Cᵢₙ×B) und der Rechenkomplexität von O(C³ᵢₙ) auf O(Cᵢₙ×B²).
Universelles Framework-Design: Nahtlose Integration mit bestehenden One-Shot-Pruning-Methoden (Wanda, RIA usw.).
Hervorragende experimentelle Leistung: Validierung der Methodeneffektivität auf mehreren Modellen wie LLaMA-Serie, Qwen, OPT usw.

Methodische Details

Aufgabendefinition

Gegeben eine vortrainierte Gewichtsmatrix W ∈ R^(Cout×Cin), besteht das Ziel darin, die optimale Vertauschungsmatrix P zu finden, so dass die umgeordnete Gewichtsmatrix Ŵ = WP nach Anwendung von N:M-Spärlichkeit die Ausgabedifferenz zum ursprünglichen dichten Modell minimiert.

Kernarchitektur der Technik

1. Lockerung der weichen Vertauschungsmatrix

Lockerung der harten Vertauschungsmatrix P zu einer weichen Vertauschungsmatrix P̂:

S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)

wobei Tr und Tc jeweils Zeilen- und Spaltennormalisierungsoperationen darstellen und τ ein Temperaturparameter ist, der die Härte der weichen Vertauschungsmatrix steuert.

2. Härtungsprozess und Gradientennäherung

Während des Vorwärtsdurchlaufs wird die weiche Vertauschungsmatrix durch den ungarischen Algorithmus zu einer strikten Vertauschungsmatrix gehärtet:

P = argmax P∈P Tr(P⊤P̂)

Während der Rückwärtsausbreitung wird ein Straight-Through-Estimator (STE) zur Gradientennäherung verwendet: ∂P/∂P̂ = 1.

3. Blockweise Kanalvertauschung

Zur Reduzierung der Rechenkomplexität werden Kanäle in mehrere Blöcke der Größe B unterteilt, wobei jeder Block unabhängig vertauscht wird:

PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB

Die Anzahl der Parameter wird von C²ᵢₙ auf Cᵢₙ×B reduziert und die Rechenkomplexität von O(C³ᵢₙ) auf O(Cᵢₙ×B²).

Optimierungsziel

PermLLM minimiert direkt die Kosinus-Ähnlichkeitsverlust zwischen den Ausgaben des dichten und des spärlichen Modells:

Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)

Integration mit bestehenden Pruning-Methoden

PermLLM kann mit jeder auf Wichtigkeitskennzahlen basierenden One-Shot-Pruning-Methode integriert werden. Für eine gegebene Wichtigkeitsmatrix S ist die vertauschte Wichtigkeitsmatrix Ŝ = SPB, und die Maske wird wie folgt erhalten:

argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M

Verwendung von STE zur Behandlung der Nicht-Differenzierbarkeit von argmax.

Experimentelle Einrichtung

Datensätze und Modelle

Modelle: LLaMA 7B-13B, LLaMA-2 7B-13B, LLaMA-3.1 8B, Qwen-2.5 7B, OPT 6.7B
Kalibrierungsdaten: Zufällig ausgewählte 128 Proben aus dem C4-Datensatz, jede mit 1024 Token
Bewertungsaufgaben:
- Sprachmodellierung: Wikitext2 (Verwirrung)
- Zero-Shot-Aufgaben: HellaSwag, ARC-Easy/Challenge, OpenBookQA, RTE

Vergleichsmethoden

Baseline-Methoden: SparseGPT, Wanda, RIA
Herkömmliche Kanalvertauschung: Wanda+CP, RIA+CP
Diese Arbeit: PermLLMWanda, PermLLMRIA

Implementierungsdetails

Optimierer: AdamW
Lernrate: {1e-3, 5e-3}
Sinkhorn-Iterationen: 5
Temperaturparameter: Linear von 1 auf 0,1 abnehmend
Blockgröße: 64
Trainingszeit: Ca. 2,5 Stunden für 7B-Modelle (4 GPUs), ca. 5,5 Stunden für 13B-Modelle (8 GPUs)

Experimentelle Ergebnisse

Hauptergebnisse

Sprachmodellierungsleistung (Wikitext2-Verwirrung)

Methode	LLaMA 7B	LLaMA-2 7B	LLaMA-3.1 8B	Qwen-2.5 7B
Dense	5.68	5.47	6.24	7.74
Wanda	11.59	12.16	23.42	24.44
Wanda+CP	11.07	11.00	21.09	18.76
PermLLMWanda	9.41	9.39	14.03	13.58
RIA+CP	10.99	10.26	19.80	17.58
PermLLMRIA	9.95	9.60	15.79	15.93

Durchschnittliche Genauigkeit bei Zero-Shot-Aufgaben

Modell	Wanda	Wanda+CP	PermLLMWanda	Verbesserung
LLaMA 7B	41.37	43.94	45.67	+4.3%
LLaMA-2 7B	42.12	43.44	46.59	+4.47%
LLaMA-3.1 8B	38.91	40.72	43.33	+4.42%

Inferenzbeschleunigungseffekt

Mit benutzerdefinierten CUDA-Kernen erreicht die Kanalvertauschungsoperation eine 84×-Beschleunigung im Vergleich zur PyTorch-Implementierung, mit einer Gesamtinferenzgeschwindigkeitssteigerung von etwa 1,67×.

Ablationsstudien

Auswirkung der Sinkhorn-Normalisierungsiterationen

Experimente zeigen, dass 5 Sinkhorn-Normalisierungsiterationen ein gutes Leistungsgleichgewicht erreichen.

Auswirkung der Blockgröße

Blockgröße	Durchschn. Genauigkeit	Wikitext2-Verwirrung	Trainingszeit
32	43.58	9.50	2h
64	46.59	9.39	2.5h
128	47.09	9.07	6h

Eine Blockgröße von 64 bietet das beste Gleichgewicht zwischen Leistung und Effizienz.

Robustheit des Kalibrierungsdatensatzes

Experimente mit verschiedenen Kalibrierungsdatensätzen (Pile, Wikitext2, C4) zeigen gute Robustheit der Methode.

Fallanalyse

Das Papier bietet Maskenvisualisierungen (Abbildung 3), die zeigen, dass die von PermLLM gelernte Vertauschung unterschiedliche Gewichtserhaltungsmuster erzeugt als herkömmliche Methoden, was die Effektivität der End-to-End-Optimierung validiert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Methodeneffektivität: PermLLM übertrifft herkömmliche Kanalvertauschungsmethoden auf mehreren Modellen und Aufgaben erheblich
Universalität: Nahtlose Integration mit bestehenden Pruning-Methoden
Praktikabilität: Realisierung praktischer Recheneffizienz durch blockweise Strategie und benutzerdefinierte CUDA-Kerne

Einschränkungen

Rechnerischer Aufwand: Obwohl die blockweise Strategie die Komplexität erheblich reduziert, erfordert sie immer noch mehr Rechenressourcen als herkömmliche Methoden
Anwendungsbereich: Die Methode ist speziell auf halbstrukturiertes Pruning ausgerichtet; ihre Anwendung auf andere Kompressionstasks (wie Quantisierung) bleibt zu erforschen
Konvergenz: Größere Blockgrößen erfordern mehr Iterationen zur Konvergenz

Zukünftige Richtungen

Erforschung der Anwendung auf andere Modellkompressionstasks wie Quantisierung
Weitere Verbesserung der Trainingseffizienz
Untersuchung effizienterer Strategien zur teilweisen Schichtoptimierung

Tiefgreifende Bewertung

Stärken

Starke technische Innovation: Erstmalige Umwandlung des Kanalvertauschungsproblems in ein End-to-End-lernbares Problem mit neuartiger technischer Route
Solide theoretische Grundlagen: Die kombinierte Verwendung von Sinkhorn-Normalisierung und STE ist theoretisch sinnvoll
Umfassende Experimente: Umfassende Bewertung auf mehreren Modellen, Datensätzen und Aufgaben
Vollständige technische Implementierung: Bereitstellung benutzerdefinierter CUDA-Kerne mit Berücksichtigung praktischer Bereitstellungsanforderungen
Klares Schreiben: Klare Papierstruktur und genaue Beschreibung technischer Details

Mängel

Rechnerischer Aufwand: Obwohl blockweise Strategie vorhanden ist, sind die Trainingskosten immer noch hoch
Unzureichende theoretische Analyse: Mangel an Konvergenzanalyse und theoretischen Garantien
Begrenzte Anwendbarkeit: Hauptsächlich auf N:M-Spärlichkeit anwendbar; Verallgemeinerbarkeit bleibt zu überprüfen
Unzureichender Baseline-Vergleich: Vergleich mit einigen neuesten Pruning-Methoden ist nicht ausreichend

Auswirkungen

Akademischer Wert: Eröffnet neue technische Wege für die Kanalvertauschungsforschung
Praktischer Wert: Direkte Anwendbarkeit im Bereich der Komprimierung großer Sprachmodelle
Reproduzierbarkeit: Vollständige Codeimplementierung und detaillierte experimentelle Einrichtung bereitgestellt

Anwendungsszenarien

Bereitstellung großer Sprachmodelle: Besonders geeignet für N:M-spärliche Bereitstellungsszenarien, die Hardwarebeschleunigung erfordern
Ressourcenbeschränkte Umgebungen: Anstreben höherer Komprimierungsqualität bei ausreichenden Rechenressourcen
Forschungsprototypen: Bereitstellung technischer Grundlagen für weitere Pruning- und Komprimierungsforschung

Literaturverzeichnis

Das Papier zitiert 66 verwandte Literaturquellen, die hauptsächlich folgende Bereiche abdecken:

Grundlegende Arbeiten zu großen Sprachmodellen (GPT, LLaMA usw.)
Klassische Netzwerk-Pruning-Methoden (Magnitude Pruning, SparseGPT usw.)
N:M-Spärlichkeitsforschung (RIA, SR-STE usw.)
Optimierungstheoretische Grundlagen (Sinkhorn-Normalisierung, ungarischer Algorithmus usw.)

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit starker technischer Innovation, umfassenden Experimenten und vollständiger technischer Implementierung. Durch die Umwandlung diskreter Optimierungsprobleme in kontinuierliche Optimierungsprobleme hat es einen Durchbruch in der Kanalvertauschungstechnik erzielt. Trotz Einschränkungen bei Rechenaufwand und Anwendungsbereich sind die Beiträge im Bereich der Komprimierung großer Sprachmodelle erheblich und von großem akademischen und praktischen Wert.