TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
Beck, Rudman, Eickhoff
Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
academic
TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
Große Sprachmodelle (LLMs) stellen aufgrund ihrer enormen Parametergröße erhebliche Herausforderungen für Berechnung und Speicher dar, weshalb Modellbeschneidung für ihre effiziente Bereitstellung entscheidend ist. Bestehende One-Shot-Beschneidungsmethoden wenden typischerweise einheitliche Sparsitätsbeschränkungen schichtübergreifend oder innerhalb von Schichten an und zeigen bei hohen Sparsitätsraten schlechte Leistungen. Dieser Artikel präsentiert TRIM (Targeted Row-wise Iterative Metric-driven Pruning), eine neuartige Methode, die unterschiedliche Sparsitätsraten für einzelne Ausgabedimensionen (Zeilen) innerhalb jeder Schicht anwendet. TRIM nutzt einen durch Qualitätsmetriken gesteuerten iterativen Anpassungsprozess zur Optimierung der Sparsitätszuweisung auf Dimensionsebene und konzentriert sich auf die Verringerung der Varianz der Qualitätserhaltung zwischen Ausgaben, um kritische Informationen zu bewahren. TRIM lässt sich nahtlos in bestehende Beschneidungsstrategien auf Schichtebene integrieren. Bewertungen der Verwirrung und Zero-Shot-Aufgaben über mehrere LLM-Familien (Qwen2.5, LLaMA-2 und OPT) und Sparsitätsniveaus hinweg zeigen, dass TRIM neue State-of-the-Art-Ergebnisse erreicht und die Stabilität verbessert. Beispielsweise reduziert TRIM bei 80% Sparsität die Verwirrung von Qwen2.5-14B um 48% und die von OPT-13B um über 90% im Vergleich zu Baseline-Methoden.
Mit dem exponentiellen Wachstum der Parametergröße großer Sprachmodelle sieht sich die Modellbereitstellung ernsthaften Herausforderungen bei Speicher- und Rechenressourcen gegenüber. Während das Parameterwachstum zu Leistungsverbesserungen und emergenten Fähigkeiten führt, macht es auch die Inferenz in ressourcenbeschränkten Umgebungen schwierig.
Einheitliche Sparsitätsbeschränkungen: Bestehende One-Shot-Beschneidungsmethoden (wie Wanda, OWL, AlphaPruning) wenden typischerweise die gleiche Sparsitätsrate auf alle Schichten oder alle Ausgabedimensionen innerhalb einer Schicht an
Starker Leistungsabfall bei hohen Sparsitätsraten: Bei extremer Sparsität (>70%) führen einheitliche Strategien zu signifikantem Leistungsabbau
Vernachlässigung von Dimensionsheterogenität: Unterschiedliche Ausgabedimensionen zeigen erhebliche Unterschiede in ihrer Empfindlichkeit und Wichtigkeit für die Beschneidung
Der Artikel beobachtet, dass LLMs einzigartige Gewichts- und Aktivierungsmerkmale aufweisen, wie hervorstechende Ausreißermerkmale und stark verzerrte Aktivierungsverteilungen. Diese Eigenschaften deuten darauf hin, dass verschiedene Ausgabedimensionen innerhalb einer Schicht unterschiedliche Beschneidungsempfindlichkeiten aufweisen und daher eine feiner abgestufte Sparsitätszuweisungsstrategie erforderlich ist.
Erstmalige Sparsitätszuweisung auf Dimensionsebene: Präsentation des ersten Algorithmus zur Berechnung unterschiedlicher Sparsitätsraten für einzelne Ausgabedimensionen innerhalb jeder Schicht
SOTA-Leistung bei extremer Sparsität: Bei 80% Sparsität signifikante Verringerung der Verwirrung im Vergleich zu bestehenden Methoden (Qwen2.5-14B um 48%, OPT-13B um 90%+)
Tiefgreifende empirische Analyse: Offenlegung der Heterogenität von Ausgabedimensionen in Bezug auf Beschneidungsempfindlichkeit und Wichtigkeit für nachgelagerte Aufgaben
Plug-and-Play-Design: TRIM kann mit jedem auf Wichtigkeitsbewertung basierenden Beschneidungsalgorithmus integriert werden und bietet gute Universalität
Gegeben eine Gewichtsmatrix W ∈ ℝ^(D×N), wobei D die Anzahl der Ausgabedimensionen und N die Anzahl der Eingabedimensionen ist, besteht das Ziel darin, für jede Ausgabedimension Wi,: die optimale Sparsitätsrate Si zu bestimmen, um die Gesamtqualität der Schicht zu maximieren und gleichzeitig die Durchschnittssparsitätsbeschränkung zu erfüllen.
TRIM definiert den Sparsitätsvektor auf Dimensionsebene S = S1, S2, ..., SD, wobei Si ∈ 0,1 die Zielsparsitätsrate für die i-te Ausgabedimension angibt. Die Beschränkung lautet:
Adaptive Lernrate: Unterstützung positiver und negativer Lernraten; positive Lernrate reduziert Qualitätsvarianz, negative Lernrate eignet sich für Schichten mit konzentrierten Ausreißern
Minimierung der Qualitätsvarianz: Verbesserung der Gesamtleistung durch Verringerung der Varianz des Qualitätsabbaus zwischen Dimensionen
Kompatibilitätsdesign: Integration mit bestehenden Bewertungsregeln (Wanda, Magnitude, SparseGPT, GBLM)
TRIM erreicht Leistungsverbesserungen über alle getesteten Modelle und Sparsitätsniveaus hinweg, mit durchschnittlichen Verbesserungen von 0,46-0,65 Prozentpunkten bei 80% Sparsität.
Die Gini-Koeffizient-Analyse zeigt erhebliche Unterschiede in der Konzentration der Wichtigkeitswerte verschiedener Ausgabedimensionen, was zu unterschiedlichen Beschneidungsempfindlichkeiten führt.
TRIM ist die erste Methode, die Sparsitätszuweisung auf Dimensionsebene innerhalb von Schichten durchführt und füllt eine Lücke bei der feinen Kontrolle in bestehenden Methoden.
Notwendigkeit der Sparsitätszuweisung auf Dimensionsebene: Bei extremer Sparsität ist feine Kontrolle entscheidend für die Aufrechterhaltung der Modellleistung
Wirksamkeit der Minimierung der Qualitätsvarianz: Signifikante Leistungsverbesserungen durch Ausgleich des Qualitätsabbaus zwischen Dimensionen
Universalität der Methode: TRIM kann mit mehreren bestehenden Beschneidungsalgorithmen integriert werden und bietet gute Erweiterbarkeit
Komplexität der Lernratenwahl: Schichten mit konzentrierten Ausreißern erfordern negative Lernraten, was die Komplexität der Hyperparameter-Optimierung erhöht
Unstrukturierte Sparsität: Die aktuelle Methode unterstützt nicht direkt strukturierte Sparsitätsmuster wie n:m
Rechenaufwand: Der iterative Prozess erhöht die Laufzeit um etwa 8%
Der Artikel zitiert wichtige Arbeiten im Beschneidungsbereich, darunter:
Klassische Beschneidungsmethoden: Le Cun et al. (1989), Han et al. (2015)
Moderne LLM-Beschneidung: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
Schichtadaptive Methoden: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning
Zusammenfassung: TRIM verbessert die LLM-Beschneidungsleistung bei extremer Sparsität erheblich durch die Einführung von Sparsitätszuweisung auf Dimensionsebene. Die Methode hat wichtigen theoretischen Wert und praktische Bedeutung und eröffnet neue Forschungsrichtungen im Bereich der Großmodellkompression. Trotz einiger Einschränkungen machen ihre Innovativität und Wirksamkeit sie zu einem wichtigen Beitrag in diesem Bereich.