PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Zou, Yin, Pei et al.
Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
academic
PermLLM: Lernbare Kanalvertauschung für N:M-spärliche große Sprachmodelle
Die Kanalvertauschung ist eine leistungsstarke Technik zur Verbesserung der Genauigkeit von N:M-spärlichen Modellen durch Neuordnung der Kanäle von Gewichtsmatrizen, um wichtige Gewichte bevorzugt zu erhalten. Herkömmliche Kanalvertauschungsmethoden beruhen jedoch auf handwerklich gestalteten Qualitätskennzahlen, die oft nicht genau erfassen, wie sich das Pruning auf die Modellleistung auswirkt. Um diese Einschränkung zu beheben, stellen wir PermLLM vor, ein Framework für das Post-Training-Pruning mit N:M-Spärlichkeit, das lernbare Kanalvertauschung (LCP) einführt. LCP nutzt die Sinkhorn-Normalisierung, um diskrete Vertauschungsmatrizen in differenzierbare weiche Vertauschungsmatrizen umzuwandeln und ermöglicht End-to-End-Optimierung. Darüber hinaus setzt PermLLM eine effiziente Blockweise-Kanalvertauschungsstrategie ein, die die Anzahl der lernbaren Parameter und die Rechenkomplexität erheblich reduziert. PermLLM lässt sich nahtlos in bestehende One-Shot-Pruning-Methoden integrieren und optimiert die Kanalvertauschung adaptiv, um Pruning-induzierte Fehler wirksam zu mindern.
Kernproblem: Herkömmliche Kanalvertauschungsmethoden verwenden handwerklich gestaltete Qualitätskennzahlen (wie die Summe der Gewichtswichtigkeit), um Vertauschungsschemata zu bewerten, aber diese Kennzahlen weichen vom tatsächlichen Pruning-Fehler ab.
Bedeutung: Mit dem rasanten Wachstum der Größe großer Sprachmodelle sind Modellkomprimierungstechniken (wie Pruning) für eine effiziente Bereitstellung entscheidend. N:M-Spärlichkeit wird wegen ihrer Hardwarefreundlichkeit (Unterstützung durch NVIDIA Sparse Tensor Core) sehr beachtet.
Bestehende Einschränkungen:
Handwerklich gestaltete Qualitätskennzahlen können nicht genau widerspiegeln, wie sich das Pruning auf die Modellleistung auswirkt
Herkömmliche Methoden können komplexe Schicht-zu-Schicht-Wechselwirkungen nicht vollständig erfassen
Der Optimierungsraum ist riesig (für Cin Eingabekanäle gibt es Cin! mögliche Vertauschungen)
Das Papier zeigt das Problem anhand eines konkreten Beispiels (Abbildung 1): Die Kanalvertauschung, die Wichtigkeitswerte maximiert, kann zu größeren Ausgabefehlern führen, was zeigt, dass ein grundlegender Unterschied zwischen handwerklichen Kennzahlen und tatsächlicher Leistung besteht.
Erstmalige Einführung von lernbarer Kanalvertauschung (LCP): Umwandlung des diskreten Kanalvertauschungsproblems in ein differenzierbares Optimierungsproblem, um End-to-End-Lernen zu ermöglichen.
Sinkhorn-Normalisierungstechnik: Nutzung der Sinkhorn-Normalisierung zur Lockerung diskreter Vertauschungsmatrizen zu weichen Vertauschungsmatrizen, um das Nicht-Differenzierungsproblem von Vertauschungsmatrizen zu lösen.
Blockweise Kanalvertauschungsstrategie: Signifikante Reduzierung der Parameterkomplexität von O(C²ᵢₙ) auf O(Cᵢₙ×B) und der Rechenkomplexität von O(C³ᵢₙ) auf O(Cᵢₙ×B²).
Universelles Framework-Design: Nahtlose Integration mit bestehenden One-Shot-Pruning-Methoden (Wanda, RIA usw.).
Hervorragende experimentelle Leistung: Validierung der Methodeneffektivität auf mehreren Modellen wie LLaMA-Serie, Qwen, OPT usw.
Gegeben eine vortrainierte Gewichtsmatrix W ∈ R^(Cout×Cin), besteht das Ziel darin, die optimale Vertauschungsmatrix P zu finden, so dass die umgeordnete Gewichtsmatrix Ŵ = WP nach Anwendung von N:M-Spärlichkeit die Ausgabedifferenz zum ursprünglichen dichten Modell minimiert.
wobei Tr und Tc jeweils Zeilen- und Spaltennormalisierungsoperationen darstellen und τ ein Temperaturparameter ist, der die Härte der weichen Vertauschungsmatrix steuert.
PermLLM kann mit jeder auf Wichtigkeitskennzahlen basierenden One-Shot-Pruning-Methode integriert werden. Für eine gegebene Wichtigkeitsmatrix S ist die vertauschte Wichtigkeitsmatrix Ŝ = SPB, und die Maske wird wie folgt erhalten:
argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M
Verwendung von STE zur Behandlung der Nicht-Differenzierbarkeit von argmax.
Mit benutzerdefinierten CUDA-Kernen erreicht die Kanalvertauschungsoperation eine 84×-Beschleunigung im Vergleich zur PyTorch-Implementierung, mit einer Gesamtinferenzgeschwindigkeitssteigerung von etwa 1,67×.
Das Papier bietet Maskenvisualisierungen (Abbildung 3), die zeigen, dass die von PermLLM gelernte Vertauschung unterschiedliche Gewichtserhaltungsmuster erzeugt als herkömmliche Methoden, was die Effektivität der End-to-End-Optimierung validiert.
Rechnerischer Aufwand: Obwohl die blockweise Strategie die Komplexität erheblich reduziert, erfordert sie immer noch mehr Rechenressourcen als herkömmliche Methoden
Anwendungsbereich: Die Methode ist speziell auf halbstrukturiertes Pruning ausgerichtet; ihre Anwendung auf andere Kompressionstasks (wie Quantisierung) bleibt zu erforschen
Konvergenz: Größere Blockgrößen erfordern mehr Iterationen zur Konvergenz
Starke technische Innovation: Erstmalige Umwandlung des Kanalvertauschungsproblems in ein End-to-End-lernbares Problem mit neuartiger technischer Route
Solide theoretische Grundlagen: Die kombinierte Verwendung von Sinkhorn-Normalisierung und STE ist theoretisch sinnvoll
Umfassende Experimente: Umfassende Bewertung auf mehreren Modellen, Datensätzen und Aufgaben
Vollständige technische Implementierung: Bereitstellung benutzerdefinierter CUDA-Kerne mit Berücksichtigung praktischer Bereitstellungsanforderungen
Klares Schreiben: Klare Papierstruktur und genaue Beschreibung technischer Details
Gesamtbewertung: Dies ist ein hochqualitatives Papier mit starker technischer Innovation, umfassenden Experimenten und vollständiger technischer Implementierung. Durch die Umwandlung diskreter Optimierungsprobleme in kontinuierliche Optimierungsprobleme hat es einen Durchbruch in der Kanalvertauschungstechnik erzielt. Trotz Einschränkungen bei Rechenaufwand und Anwendungsbereich sind die Beiträge im Bereich der Komprimierung großer Sprachmodelle erheblich und von großem akademischen und praktischen Wert.