2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff
Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
academic

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Grundinformationen

  • Paper-ID: 2505.16743
  • Titel: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
  • Autoren: Florentin Beck (Universität Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (Universität Tübingen)
  • Klassifizierung: cs.CL cs.AI cs.LG
  • Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2505.16743
  • Code-Link: https://github.com/flobk/TRIM

Zusammenfassung

Große Sprachmodelle (LLMs) stellen aufgrund ihrer enormen Parametergröße erhebliche Herausforderungen für Berechnung und Speicher dar, weshalb Modellbeschneidung für ihre effiziente Bereitstellung entscheidend ist. Bestehende One-Shot-Beschneidungsmethoden wenden typischerweise einheitliche Sparsitätsbeschränkungen schichtübergreifend oder innerhalb von Schichten an und zeigen bei hohen Sparsitätsraten schlechte Leistungen. Dieser Artikel präsentiert TRIM (Targeted Row-wise Iterative Metric-driven Pruning), eine neuartige Methode, die unterschiedliche Sparsitätsraten für einzelne Ausgabedimensionen (Zeilen) innerhalb jeder Schicht anwendet. TRIM nutzt einen durch Qualitätsmetriken gesteuerten iterativen Anpassungsprozess zur Optimierung der Sparsitätszuweisung auf Dimensionsebene und konzentriert sich auf die Verringerung der Varianz der Qualitätserhaltung zwischen Ausgaben, um kritische Informationen zu bewahren. TRIM lässt sich nahtlos in bestehende Beschneidungsstrategien auf Schichtebene integrieren. Bewertungen der Verwirrung und Zero-Shot-Aufgaben über mehrere LLM-Familien (Qwen2.5, LLaMA-2 und OPT) und Sparsitätsniveaus hinweg zeigen, dass TRIM neue State-of-the-Art-Ergebnisse erreicht und die Stabilität verbessert. Beispielsweise reduziert TRIM bei 80% Sparsität die Verwirrung von Qwen2.5-14B um 48% und die von OPT-13B um über 90% im Vergleich zu Baseline-Methoden.

Forschungshintergrund und Motivation

Problemdefinition

Mit dem exponentiellen Wachstum der Parametergröße großer Sprachmodelle sieht sich die Modellbereitstellung ernsthaften Herausforderungen bei Speicher- und Rechenressourcen gegenüber. Während das Parameterwachstum zu Leistungsverbesserungen und emergenten Fähigkeiten führt, macht es auch die Inferenz in ressourcenbeschränkten Umgebungen schwierig.

Einschränkungen bestehender Methoden

  1. Einheitliche Sparsitätsbeschränkungen: Bestehende One-Shot-Beschneidungsmethoden (wie Wanda, OWL, AlphaPruning) wenden typischerweise die gleiche Sparsitätsrate auf alle Schichten oder alle Ausgabedimensionen innerhalb einer Schicht an
  2. Starker Leistungsabfall bei hohen Sparsitätsraten: Bei extremer Sparsität (>70%) führen einheitliche Strategien zu signifikantem Leistungsabbau
  3. Vernachlässigung von Dimensionsheterogenität: Unterschiedliche Ausgabedimensionen zeigen erhebliche Unterschiede in ihrer Empfindlichkeit und Wichtigkeit für die Beschneidung

Forschungsmotivation

Der Artikel beobachtet, dass LLMs einzigartige Gewichts- und Aktivierungsmerkmale aufweisen, wie hervorstechende Ausreißermerkmale und stark verzerrte Aktivierungsverteilungen. Diese Eigenschaften deuten darauf hin, dass verschiedene Ausgabedimensionen innerhalb einer Schicht unterschiedliche Beschneidungsempfindlichkeiten aufweisen und daher eine feiner abgestufte Sparsitätszuweisungsstrategie erforderlich ist.

Kernbeiträge

  1. Erstmalige Sparsitätszuweisung auf Dimensionsebene: Präsentation des ersten Algorithmus zur Berechnung unterschiedlicher Sparsitätsraten für einzelne Ausgabedimensionen innerhalb jeder Schicht
  2. SOTA-Leistung bei extremer Sparsität: Bei 80% Sparsität signifikante Verringerung der Verwirrung im Vergleich zu bestehenden Methoden (Qwen2.5-14B um 48%, OPT-13B um 90%+)
  3. Tiefgreifende empirische Analyse: Offenlegung der Heterogenität von Ausgabedimensionen in Bezug auf Beschneidungsempfindlichkeit und Wichtigkeit für nachgelagerte Aufgaben
  4. Plug-and-Play-Design: TRIM kann mit jedem auf Wichtigkeitsbewertung basierenden Beschneidungsalgorithmus integriert werden und bietet gute Universalität

Methodische Details

Aufgabendefinition

Gegeben eine Gewichtsmatrix W ∈ ℝ^(D×N), wobei D die Anzahl der Ausgabedimensionen und N die Anzahl der Eingabedimensionen ist, besteht das Ziel darin, für jede Ausgabedimension Wi,: die optimale Sparsitätsrate Si zu bestimmen, um die Gesamtqualität der Schicht zu maximieren und gleichzeitig die Durchschnittssparsitätsbeschränkung zu erfüllen.

Kernalgorithmus: TRIM

Sparsitätsvektor auf Dimensionsebene

TRIM definiert den Sparsitätsvektor auf Dimensionsebene S = S1, S2, ..., SD, wobei Si ∈ 0,1 die Zielsparsitätsrate für die i-te Ausgabedimension angibt. Die Beschränkung lautet:

1/D * Σ(i=1 bis D) Si = T

wobei T die Zielsparsitätsrate der Schicht ist.

Iterativer Anpassungsalgorithmus

Algorithmus 1: Iterative Sparsitätsanpassung auf Dimensionsebene

  1. Initialisierung: Berechnung der unbeschnittenen Ausgabe Y ← WX, Initialisierung Si = T (gleichmäßige Verteilung)
  2. Iterative Optimierung (K Iterationen):
    • Beschneidung basierend auf aktuellem S zur Erzeugung von Wpruned
    • Berechnung der beschnittenen Ausgabe Ŷ ← WprunedX
    • Bewertung der Gesamtqualität qk ← Qmetric(Y, Ŷ)
    • Aktualisierung der besten Konfiguration (falls qk > qbest)
    • Berechnung der Qualität pro Dimension ci ← QmetricDimwise(Yi,:, Ŷi,:)
    • Normalisierung der Qualitätswerte auf 0,1-Bereich
    • Anpassung der Sparsitätsrate basierend auf Lernrate α: δi ← αc'i
    • Neuzentrierung zur Beibehaltung der Durchschnittsbeschränkung: Si ← δi - (1/D)Σδj + T
  3. Rückgabe: Optimale Sparsitätszuweisung Sbest

Qualitätsmetriken

  • Schichtqualität: Verwendung von Kosinusähnlichkeit zur Bewertung der Beschneidungsqualität der gesamten Schicht
  • Dimensionsqualität: Berechnung der Kosinusähnlichkeit für jede Ausgabedimension zur Steuerung der Sparsitätsanpassung

Technische Innovationen

  1. Adaptive Lernrate: Unterstützung positiver und negativer Lernraten; positive Lernrate reduziert Qualitätsvarianz, negative Lernrate eignet sich für Schichten mit konzentrierten Ausreißern
  2. Minimierung der Qualitätsvarianz: Verbesserung der Gesamtleistung durch Verringerung der Varianz des Qualitätsabbaus zwischen Dimensionen
  3. Kompatibilitätsdesign: Integration mit bestehenden Bewertungsregeln (Wanda, Magnitude, SparseGPT, GBLM)

Experimentelle Einrichtung

Datensätze

  • Modelle: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
  • Evaluierungsdaten: WikiText-Validierungssatz (Verwirrung), C4 und Pile (Verallgemeinerungsvalidierung)
  • Nachgelagerte Aufgaben: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA

Bewertungsmetriken

  • Verwirrung: Bewertung der Sprachmodellierungsfähigkeit auf dem WikiText-Validierungssatz
  • Zero-Shot-Genauigkeit: Durchschnittliche Leistung auf 7 nachgelagerten Aufgaben

Vergleichsmethoden

  • Baseline-Methoden: OWL, AlphaPruning (basierend auf Wanda)
  • Ablationsstudien: Auswirkungen verschiedener Qualitätsmetriken, Lernrateneinstellungen und Iterationszahlen

Implementierungsdetails

  • Kalibrierungsbeispiele: Zufällig aus dem C4-Datensatz ausgewählt, Sequenzlänge 2048
  • Sparsitätsbeschränkungen: Maximale 95% pro Dimension zur Vermeidung von Überanpassung
  • Hyperparameter: K=10 Iterationen, Lernrate α durch Rastersuche bestimmt

Experimentelle Ergebnisse

Hauptergebnisse

Verwirrungsleistung (80% Sparsität)

ModellOWL-BaselineOWL+TRIMVerbesserung
Qwen2.5-14B348.48180.67-48%
OPT-13B6461.43324.14-95%
LLaMA-2-13B225.04154.83-31%

Zero-Shot-Aufgabenleistung

TRIM erreicht Leistungsverbesserungen über alle getesteten Modelle und Sparsitätsniveaus hinweg, mit durchschnittlichen Verbesserungen von 0,46-0,65 Prozentpunkten bei 80% Sparsität.

Ablationsstudien

Vergleich von Qualitätsmetriken

  • Schichtqualität: Kosinusähnlichkeit zeigt die stabilste Leistung
  • Dimensionsqualität: Kosinusähnlichkeit ist zuverlässiger als MSE und PSNR

Verallgemeinerung über verschiedene Beschneidungsindikatoren

TRIM zeigt Verbesserungen über verschiedene Bewertungsregeln (Magnitude, SparseGPT, GBLM) hinweg und validiert die Universalität der Methode.

Wichtige Erkenntnisse

Beobachtung 1: Dimensionsheterogenität

Die Gini-Koeffizient-Analyse zeigt erhebliche Unterschiede in der Konzentration der Wichtigkeitswerte verschiedener Ausgabedimensionen, was zu unterschiedlichen Beschneidungsempfindlichkeiten führt.

Beobachtung 2: Nichtlinearer Qualitätsabbau

Mit zunehmender Sparsität zeigt sich ein beschleunigter Qualitätsabbau, was die Bedeutung feiner Zuweisung unterstreicht.

Beobachtung 3: Unterschiede in der Dimensionswichtigkeit

Experimente zeigen enorme Unterschiede in den Auswirkungen der vollständigen Entfernung einzelner Dimensionen:

  • Dimension mit minimaler L2-Norm: Verwirrung nimmt nur um 0,16 zu
  • Dimension mit maximaler L2-Norm: Verwirrung springt auf 273,10

Verwandte Arbeiten

Klassifizierung von Beschneidungsmethoden

  1. Gradientenbasierte Methoden: SNIP, GraSP, SynFlow usw., erfordern Gradienteninformationen und Umschulung
  2. One-Shot-Beschneidungsmethoden: SparseGPT, Wanda usw., keine Umschulung erforderlich, aber begrenzte Leistung
  3. Schichtadaptive Methoden: OWL, AlphaPruning usw., weisen verschiedenen Schichten unterschiedliche Sparsitätsraten zu

Positionierung von TRIM

TRIM ist die erste Methode, die Sparsitätszuweisung auf Dimensionsebene innerhalb von Schichten durchführt und füllt eine Lücke bei der feinen Kontrolle in bestehenden Methoden.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Notwendigkeit der Sparsitätszuweisung auf Dimensionsebene: Bei extremer Sparsität ist feine Kontrolle entscheidend für die Aufrechterhaltung der Modellleistung
  2. Wirksamkeit der Minimierung der Qualitätsvarianz: Signifikante Leistungsverbesserungen durch Ausgleich des Qualitätsabbaus zwischen Dimensionen
  3. Universalität der Methode: TRIM kann mit mehreren bestehenden Beschneidungsalgorithmen integriert werden und bietet gute Erweiterbarkeit

Einschränkungen

  1. Komplexität der Lernratenwahl: Schichten mit konzentrierten Ausreißern erfordern negative Lernraten, was die Komplexität der Hyperparameter-Optimierung erhöht
  2. Unstrukturierte Sparsität: Die aktuelle Methode unterstützt nicht direkt strukturierte Sparsitätsmuster wie n:m
  3. Rechenaufwand: Der iterative Prozess erhöht die Laufzeit um etwa 8%

Zukünftige Richtungen

  1. Unterstützung strukturierter Sparsität: Erweiterung von TRIM zur Unterstützung hardwarefreundlicher Sparsitätsmuster
  2. Automatische Lernratenwahl: Entwicklung adaptiver Mechanismen zur Reduzierung des Hyperparameter-Optimierungsbedarfs
  3. Theoretische Analyse: Etablierung eines theoretischen Rahmens für Dimensionswichtigkeit und Beschneidungsempfindlichkeit

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige Einführung der Sparsitätszuweisung auf Dimensionsebene mit neuartigem Ansatz
  2. Umfangreiche Experimente: Validierung der Methodenwirksamkeit über mehrere Modellserien und Aufgaben
  3. Theoretische Unterstützung: Tiefgreifende Analyse offenbart die Grundursachen der Methodenwirksamkeit
  4. Hoher praktischer Wert: Das Plug-and-Play-Design ermöglicht einfache Integration in bestehende Systeme

Mängel

  1. Methodenkomplexität: Erhöhte Algorithmen-Komplexität und Hyperparameter im Vergleich zu Baseline-Methoden
  2. Hardwareanpassung: Unstrukturierte Sparsität begrenzt Beschleunigungseffekte auf spezialisierter Hardware
  3. Unzureichende theoretische Analyse: Mangel an theoretischen Garantien für optimale Sparsitätszuweisung

Einfluss

  1. Akademischer Beitrag: Eröffnet neue Forschungsrichtungen im LLM-Beschneidungsbereich
  2. Praktischer Wert: Bedeutsam für die Bereitstellung großer Modelle in ressourcenbeschränkten Umgebungen
  3. Reproduzierbarkeit: Bereitstellung von Open-Source-Code erleichtert nachfolgende Forschung

Anwendungsszenarien

  1. Anforderungen extremer Sparsität: Besonders geeignet für Szenarien mit >70% Sparsitätsanforderungen
  2. Ressourcenbeschränkte Umgebungen: Edge-Geräte, mobile Endgeräte usw. mit begrenzten Rechenressourcen
  3. Forschungszwecke: Bietet neue Benchmarks und Perspektiven für Beschneidungsalgorithmusforschung

Literaturverzeichnis

Der Artikel zitiert wichtige Arbeiten im Beschneidungsbereich, darunter:

  • Klassische Beschneidungsmethoden: Le Cun et al. (1989), Han et al. (2015)
  • Moderne LLM-Beschneidung: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
  • Schichtadaptive Methoden: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning

Zusammenfassung: TRIM verbessert die LLM-Beschneidungsleistung bei extremer Sparsität erheblich durch die Einführung von Sparsitätszuweisung auf Dimensionsebene. Die Methode hat wichtigen theoretischen Wert und praktische Bedeutung und eröffnet neue Forschungsrichtungen im Bereich der Großmodellkompression. Trotz einiger Einschränkungen machen ihre Innovativität und Wirksamkeit sie zu einem wichtigen Beitrag in diesem Bereich.