2025-11-17T08:49:21.061208

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

Zou, Yin, Pei et al.
Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
academic

PermLLM: Lernbare Kanalvertauschung für N:M-spärliche große Sprachmodelle

Grundlegende Informationen

  • Papier-ID: 2510.10136
  • Titel: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
  • Autoren: Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu (Chinesische Universität Hongkong)
  • Klassifizierung: cs.LG cs.AI
  • Veröffentlichungskonferenz: NeurIPS 2025 (39. Konferenz über neuronale Informationsverarbeitungssysteme)
  • Papierlink: https://arxiv.org/abs/2510.10136
  • Codelink: https://github.com/lanchengzou/PermLLM

Zusammenfassung

Die Kanalvertauschung ist eine leistungsstarke Technik zur Verbesserung der Genauigkeit von N:M-spärlichen Modellen durch Neuordnung der Kanäle von Gewichtsmatrizen, um wichtige Gewichte bevorzugt zu erhalten. Herkömmliche Kanalvertauschungsmethoden beruhen jedoch auf handwerklich gestalteten Qualitätskennzahlen, die oft nicht genau erfassen, wie sich das Pruning auf die Modellleistung auswirkt. Um diese Einschränkung zu beheben, stellen wir PermLLM vor, ein Framework für das Post-Training-Pruning mit N:M-Spärlichkeit, das lernbare Kanalvertauschung (LCP) einführt. LCP nutzt die Sinkhorn-Normalisierung, um diskrete Vertauschungsmatrizen in differenzierbare weiche Vertauschungsmatrizen umzuwandeln und ermöglicht End-to-End-Optimierung. Darüber hinaus setzt PermLLM eine effiziente Blockweise-Kanalvertauschungsstrategie ein, die die Anzahl der lernbaren Parameter und die Rechenkomplexität erheblich reduziert. PermLLM lässt sich nahtlos in bestehende One-Shot-Pruning-Methoden integrieren und optimiert die Kanalvertauschung adaptiv, um Pruning-induzierte Fehler wirksam zu mindern.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Herkömmliche Kanalvertauschungsmethoden verwenden handwerklich gestaltete Qualitätskennzahlen (wie die Summe der Gewichtswichtigkeit), um Vertauschungsschemata zu bewerten, aber diese Kennzahlen weichen vom tatsächlichen Pruning-Fehler ab.
  2. Bedeutung: Mit dem rasanten Wachstum der Größe großer Sprachmodelle sind Modellkomprimierungstechniken (wie Pruning) für eine effiziente Bereitstellung entscheidend. N:M-Spärlichkeit wird wegen ihrer Hardwarefreundlichkeit (Unterstützung durch NVIDIA Sparse Tensor Core) sehr beachtet.
  3. Bestehende Einschränkungen:
    • Handwerklich gestaltete Qualitätskennzahlen können nicht genau widerspiegeln, wie sich das Pruning auf die Modellleistung auswirkt
    • Herkömmliche Methoden können komplexe Schicht-zu-Schicht-Wechselwirkungen nicht vollständig erfassen
    • Der Optimierungsraum ist riesig (für Cin Eingabekanäle gibt es Cin! mögliche Vertauschungen)

Forschungsmotivation

Das Papier zeigt das Problem anhand eines konkreten Beispiels (Abbildung 1): Die Kanalvertauschung, die Wichtigkeitswerte maximiert, kann zu größeren Ausgabefehlern führen, was zeigt, dass ein grundlegender Unterschied zwischen handwerklichen Kennzahlen und tatsächlicher Leistung besteht.

Kernbeiträge

  1. Erstmalige Einführung von lernbarer Kanalvertauschung (LCP): Umwandlung des diskreten Kanalvertauschungsproblems in ein differenzierbares Optimierungsproblem, um End-to-End-Lernen zu ermöglichen.
  2. Sinkhorn-Normalisierungstechnik: Nutzung der Sinkhorn-Normalisierung zur Lockerung diskreter Vertauschungsmatrizen zu weichen Vertauschungsmatrizen, um das Nicht-Differenzierungsproblem von Vertauschungsmatrizen zu lösen.
  3. Blockweise Kanalvertauschungsstrategie: Signifikante Reduzierung der Parameterkomplexität von O(C²ᵢₙ) auf O(Cᵢₙ×B) und der Rechenkomplexität von O(C³ᵢₙ) auf O(Cᵢₙ×B²).
  4. Universelles Framework-Design: Nahtlose Integration mit bestehenden One-Shot-Pruning-Methoden (Wanda, RIA usw.).
  5. Hervorragende experimentelle Leistung: Validierung der Methodeneffektivität auf mehreren Modellen wie LLaMA-Serie, Qwen, OPT usw.

Methodische Details

Aufgabendefinition

Gegeben eine vortrainierte Gewichtsmatrix W ∈ R^(Cout×Cin), besteht das Ziel darin, die optimale Vertauschungsmatrix P zu finden, so dass die umgeordnete Gewichtsmatrix Ŵ = WP nach Anwendung von N:M-Spärlichkeit die Ausgabedifferenz zum ursprünglichen dichten Modell minimiert.

Kernarchitektur der Technik

1. Lockerung der weichen Vertauschungsmatrix

Lockerung der harten Vertauschungsmatrix P zu einer weichen Vertauschungsmatrix P̂:

S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)

wobei Tr und Tc jeweils Zeilen- und Spaltennormalisierungsoperationen darstellen und τ ein Temperaturparameter ist, der die Härte der weichen Vertauschungsmatrix steuert.

2. Härtungsprozess und Gradientennäherung

Während des Vorwärtsdurchlaufs wird die weiche Vertauschungsmatrix durch den ungarischen Algorithmus zu einer strikten Vertauschungsmatrix gehärtet:

P = argmax P∈P Tr(P⊤P̂)

Während der Rückwärtsausbreitung wird ein Straight-Through-Estimator (STE) zur Gradientennäherung verwendet: ∂P/∂P̂ = 1.

3. Blockweise Kanalvertauschung

Zur Reduzierung der Rechenkomplexität werden Kanäle in mehrere Blöcke der Größe B unterteilt, wobei jeder Block unabhängig vertauscht wird:

PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB

Die Anzahl der Parameter wird von C²ᵢₙ auf Cᵢₙ×B reduziert und die Rechenkomplexität von O(C³ᵢₙ) auf O(Cᵢₙ×B²).

Optimierungsziel

PermLLM minimiert direkt die Kosinus-Ähnlichkeitsverlust zwischen den Ausgaben des dichten und des spärlichen Modells:

Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)

Integration mit bestehenden Pruning-Methoden

PermLLM kann mit jeder auf Wichtigkeitskennzahlen basierenden One-Shot-Pruning-Methode integriert werden. Für eine gegebene Wichtigkeitsmatrix S ist die vertauschte Wichtigkeitsmatrix Ŝ = SPB, und die Maske wird wie folgt erhalten:

argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M

Verwendung von STE zur Behandlung der Nicht-Differenzierbarkeit von argmax.

Experimentelle Einrichtung

Datensätze und Modelle

  • Modelle: LLaMA 7B-13B, LLaMA-2 7B-13B, LLaMA-3.1 8B, Qwen-2.5 7B, OPT 6.7B
  • Kalibrierungsdaten: Zufällig ausgewählte 128 Proben aus dem C4-Datensatz, jede mit 1024 Token
  • Bewertungsaufgaben:
    • Sprachmodellierung: Wikitext2 (Verwirrung)
    • Zero-Shot-Aufgaben: HellaSwag, ARC-Easy/Challenge, OpenBookQA, RTE

Vergleichsmethoden

  • Baseline-Methoden: SparseGPT, Wanda, RIA
  • Herkömmliche Kanalvertauschung: Wanda+CP, RIA+CP
  • Diese Arbeit: PermLLMWanda, PermLLMRIA

Implementierungsdetails

  • Optimierer: AdamW
  • Lernrate: {1e-3, 5e-3}
  • Sinkhorn-Iterationen: 5
  • Temperaturparameter: Linear von 1 auf 0,1 abnehmend
  • Blockgröße: 64
  • Trainingszeit: Ca. 2,5 Stunden für 7B-Modelle (4 GPUs), ca. 5,5 Stunden für 13B-Modelle (8 GPUs)

Experimentelle Ergebnisse

Hauptergebnisse

Sprachmodellierungsleistung (Wikitext2-Verwirrung)

MethodeLLaMA 7BLLaMA-2 7BLLaMA-3.1 8BQwen-2.5 7B
Dense5.685.476.247.74
Wanda11.5912.1623.4224.44
Wanda+CP11.0711.0021.0918.76
PermLLMWanda9.419.3914.0313.58
RIA+CP10.9910.2619.8017.58
PermLLMRIA9.959.6015.7915.93

Durchschnittliche Genauigkeit bei Zero-Shot-Aufgaben

ModellWandaWanda+CPPermLLMWandaVerbesserung
LLaMA 7B41.3743.9445.67+4.3%
LLaMA-2 7B42.1243.4446.59+4.47%
LLaMA-3.1 8B38.9140.7243.33+4.42%

Inferenzbeschleunigungseffekt

Mit benutzerdefinierten CUDA-Kernen erreicht die Kanalvertauschungsoperation eine 84×-Beschleunigung im Vergleich zur PyTorch-Implementierung, mit einer Gesamtinferenzgeschwindigkeitssteigerung von etwa 1,67×.

Ablationsstudien

Auswirkung der Sinkhorn-Normalisierungsiterationen

Experimente zeigen, dass 5 Sinkhorn-Normalisierungsiterationen ein gutes Leistungsgleichgewicht erreichen.

Auswirkung der Blockgröße

BlockgrößeDurchschn. GenauigkeitWikitext2-VerwirrungTrainingszeit
3243.589.502h
6446.599.392.5h
12847.099.076h

Eine Blockgröße von 64 bietet das beste Gleichgewicht zwischen Leistung und Effizienz.

Robustheit des Kalibrierungsdatensatzes

Experimente mit verschiedenen Kalibrierungsdatensätzen (Pile, Wikitext2, C4) zeigen gute Robustheit der Methode.

Fallanalyse

Das Papier bietet Maskenvisualisierungen (Abbildung 3), die zeigen, dass die von PermLLM gelernte Vertauschung unterschiedliche Gewichtserhaltungsmuster erzeugt als herkömmliche Methoden, was die Effektivität der End-to-End-Optimierung validiert.

Verwandte Arbeiten

Pruning großer Sprachmodelle

  • Strukturiertes Pruning: Entfernung von grobkörnigen Strukturen (Kanäle, Schichten, Blöcke)
  • Unstrukturiertes Pruning: Am flexibelsten, aber schwierig für Hardwarebeschleunigung
  • Halbstrukturiertes Pruning: N:M-Spärlichkeit balanciert Flexibilität und Hardwarefreundlichkeit

Kanalvertauschungstechniken

  • Frühe Arbeiten konzentrierten sich hauptsächlich auf erschöpfende Suche bei kleinen Netzwerken
  • RIA schlug heuristische Kanalzuweisungsmethoden vor
  • Dieses Papier führt erstmals eine lernbare End-to-End-Optimierungsmethode ein

N:M-Spärlichkeitslernverfahren

  • Methoden wie SR-STE trainieren N:M-spärliche Modelle von Grund auf
  • Methoden wie MaskLLM lernen halbstrukturierte Spärlichkeit
  • Dieses Papier konzentriert sich auf das Post-Training-Pruning-Szenario

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Methodeneffektivität: PermLLM übertrifft herkömmliche Kanalvertauschungsmethoden auf mehreren Modellen und Aufgaben erheblich
  2. Universalität: Nahtlose Integration mit bestehenden Pruning-Methoden
  3. Praktikabilität: Realisierung praktischer Recheneffizienz durch blockweise Strategie und benutzerdefinierte CUDA-Kerne

Einschränkungen

  1. Rechnerischer Aufwand: Obwohl die blockweise Strategie die Komplexität erheblich reduziert, erfordert sie immer noch mehr Rechenressourcen als herkömmliche Methoden
  2. Anwendungsbereich: Die Methode ist speziell auf halbstrukturiertes Pruning ausgerichtet; ihre Anwendung auf andere Kompressionstasks (wie Quantisierung) bleibt zu erforschen
  3. Konvergenz: Größere Blockgrößen erfordern mehr Iterationen zur Konvergenz

Zukünftige Richtungen

  1. Erforschung der Anwendung auf andere Modellkompressionstasks wie Quantisierung
  2. Weitere Verbesserung der Trainingseffizienz
  3. Untersuchung effizienterer Strategien zur teilweisen Schichtoptimierung

Tiefgreifende Bewertung

Stärken

  1. Starke technische Innovation: Erstmalige Umwandlung des Kanalvertauschungsproblems in ein End-to-End-lernbares Problem mit neuartiger technischer Route
  2. Solide theoretische Grundlagen: Die kombinierte Verwendung von Sinkhorn-Normalisierung und STE ist theoretisch sinnvoll
  3. Umfassende Experimente: Umfassende Bewertung auf mehreren Modellen, Datensätzen und Aufgaben
  4. Vollständige technische Implementierung: Bereitstellung benutzerdefinierter CUDA-Kerne mit Berücksichtigung praktischer Bereitstellungsanforderungen
  5. Klares Schreiben: Klare Papierstruktur und genaue Beschreibung technischer Details

Mängel

  1. Rechnerischer Aufwand: Obwohl blockweise Strategie vorhanden ist, sind die Trainingskosten immer noch hoch
  2. Unzureichende theoretische Analyse: Mangel an Konvergenzanalyse und theoretischen Garantien
  3. Begrenzte Anwendbarkeit: Hauptsächlich auf N:M-Spärlichkeit anwendbar; Verallgemeinerbarkeit bleibt zu überprüfen
  4. Unzureichender Baseline-Vergleich: Vergleich mit einigen neuesten Pruning-Methoden ist nicht ausreichend

Auswirkungen

  1. Akademischer Wert: Eröffnet neue technische Wege für die Kanalvertauschungsforschung
  2. Praktischer Wert: Direkte Anwendbarkeit im Bereich der Komprimierung großer Sprachmodelle
  3. Reproduzierbarkeit: Vollständige Codeimplementierung und detaillierte experimentelle Einrichtung bereitgestellt

Anwendungsszenarien

  1. Bereitstellung großer Sprachmodelle: Besonders geeignet für N:M-spärliche Bereitstellungsszenarien, die Hardwarebeschleunigung erfordern
  2. Ressourcenbeschränkte Umgebungen: Anstreben höherer Komprimierungsqualität bei ausreichenden Rechenressourcen
  3. Forschungsprototypen: Bereitstellung technischer Grundlagen für weitere Pruning- und Komprimierungsforschung

Literaturverzeichnis

Das Papier zitiert 66 verwandte Literaturquellen, die hauptsächlich folgende Bereiche abdecken:

  • Grundlegende Arbeiten zu großen Sprachmodellen (GPT, LLaMA usw.)
  • Klassische Netzwerk-Pruning-Methoden (Magnitude Pruning, SparseGPT usw.)
  • N:M-Spärlichkeitsforschung (RIA, SR-STE usw.)
  • Optimierungstheoretische Grundlagen (Sinkhorn-Normalisierung, ungarischer Algorithmus usw.)

Gesamtbewertung: Dies ist ein hochqualitatives Papier mit starker technischer Innovation, umfassenden Experimenten und vollständiger technischer Implementierung. Durch die Umwandlung diskreter Optimierungsprobleme in kontinuierliche Optimierungsprobleme hat es einen Durchbruch in der Kanalvertauschungstechnik erzielt. Trotz Einschränkungen bei Rechenaufwand und Anwendungsbereich sind die Beiträge im Bereich der Komprimierung großer Sprachmodelle erheblich und von großem akademischen und praktischen Wert.