2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff

Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM

academic

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Grundinformationen

Paper-ID: 2505.16743
Titel: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
Autoren: Florentin Beck (Universität Tübingen), William Rudman (University of Texas at Austin), Carsten Eickhoff (Universität Tübingen)
Klassifizierung: cs.CL cs.AI cs.LG
Veröffentlichungsdatum: 11. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2505.16743
Code-Link: https://github.com/flobk/TRIM

Zusammenfassung

Große Sprachmodelle (LLMs) stellen aufgrund ihrer enormen Parametergröße erhebliche Herausforderungen für Berechnung und Speicher dar, weshalb Modellbeschneidung für ihre effiziente Bereitstellung entscheidend ist. Bestehende One-Shot-Beschneidungsmethoden wenden typischerweise einheitliche Sparsitätsbeschränkungen schichtübergreifend oder innerhalb von Schichten an und zeigen bei hohen Sparsitätsraten schlechte Leistungen. Dieser Artikel präsentiert TRIM (Targeted Row-wise Iterative Metric-driven Pruning), eine neuartige Methode, die unterschiedliche Sparsitätsraten für einzelne Ausgabedimensionen (Zeilen) innerhalb jeder Schicht anwendet. TRIM nutzt einen durch Qualitätsmetriken gesteuerten iterativen Anpassungsprozess zur Optimierung der Sparsitätszuweisung auf Dimensionsebene und konzentriert sich auf die Verringerung der Varianz der Qualitätserhaltung zwischen Ausgaben, um kritische Informationen zu bewahren. TRIM lässt sich nahtlos in bestehende Beschneidungsstrategien auf Schichtebene integrieren. Bewertungen der Verwirrung und Zero-Shot-Aufgaben über mehrere LLM-Familien (Qwen2.5, LLaMA-2 und OPT) und Sparsitätsniveaus hinweg zeigen, dass TRIM neue State-of-the-Art-Ergebnisse erreicht und die Stabilität verbessert. Beispielsweise reduziert TRIM bei 80% Sparsität die Verwirrung von Qwen2.5-14B um 48% und die von OPT-13B um über 90% im Vergleich zu Baseline-Methoden.

Forschungshintergrund und Motivation

Problemdefinition

Mit dem exponentiellen Wachstum der Parametergröße großer Sprachmodelle sieht sich die Modellbereitstellung ernsthaften Herausforderungen bei Speicher- und Rechenressourcen gegenüber. Während das Parameterwachstum zu Leistungsverbesserungen und emergenten Fähigkeiten führt, macht es auch die Inferenz in ressourcenbeschränkten Umgebungen schwierig.

Einschränkungen bestehender Methoden

Einheitliche Sparsitätsbeschränkungen: Bestehende One-Shot-Beschneidungsmethoden (wie Wanda, OWL, AlphaPruning) wenden typischerweise die gleiche Sparsitätsrate auf alle Schichten oder alle Ausgabedimensionen innerhalb einer Schicht an
Starker Leistungsabfall bei hohen Sparsitätsraten: Bei extremer Sparsität (>70%) führen einheitliche Strategien zu signifikantem Leistungsabbau
Vernachlässigung von Dimensionsheterogenität: Unterschiedliche Ausgabedimensionen zeigen erhebliche Unterschiede in ihrer Empfindlichkeit und Wichtigkeit für die Beschneidung

Forschungsmotivation

Der Artikel beobachtet, dass LLMs einzigartige Gewichts- und Aktivierungsmerkmale aufweisen, wie hervorstechende Ausreißermerkmale und stark verzerrte Aktivierungsverteilungen. Diese Eigenschaften deuten darauf hin, dass verschiedene Ausgabedimensionen innerhalb einer Schicht unterschiedliche Beschneidungsempfindlichkeiten aufweisen und daher eine feiner abgestufte Sparsitätszuweisungsstrategie erforderlich ist.

Kernbeiträge

Erstmalige Sparsitätszuweisung auf Dimensionsebene: Präsentation des ersten Algorithmus zur Berechnung unterschiedlicher Sparsitätsraten für einzelne Ausgabedimensionen innerhalb jeder Schicht
SOTA-Leistung bei extremer Sparsität: Bei 80% Sparsität signifikante Verringerung der Verwirrung im Vergleich zu bestehenden Methoden (Qwen2.5-14B um 48%, OPT-13B um 90%+)
Tiefgreifende empirische Analyse: Offenlegung der Heterogenität von Ausgabedimensionen in Bezug auf Beschneidungsempfindlichkeit und Wichtigkeit für nachgelagerte Aufgaben
Plug-and-Play-Design: TRIM kann mit jedem auf Wichtigkeitsbewertung basierenden Beschneidungsalgorithmus integriert werden und bietet gute Universalität

Methodische Details

Aufgabendefinition

Gegeben eine Gewichtsmatrix W ∈ ℝ^(D×N), wobei D die Anzahl der Ausgabedimensionen und N die Anzahl der Eingabedimensionen ist, besteht das Ziel darin, für jede Ausgabedimension Wi,: die optimale Sparsitätsrate Si zu bestimmen, um die Gesamtqualität der Schicht zu maximieren und gleichzeitig die Durchschnittssparsitätsbeschränkung zu erfüllen.

Kernalgorithmus: TRIM

Sparsitätsvektor auf Dimensionsebene

TRIM definiert den Sparsitätsvektor auf Dimensionsebene S = S1, S2, ..., SD, wobei Si ∈ 0,1 die Zielsparsitätsrate für die i-te Ausgabedimension angibt. Die Beschränkung lautet:

1/D * Σ(i=1 bis D) Si = T

wobei T die Zielsparsitätsrate der Schicht ist.

Iterativer Anpassungsalgorithmus

Algorithmus 1: Iterative Sparsitätsanpassung auf Dimensionsebene

Initialisierung: Berechnung der unbeschnittenen Ausgabe Y ← WX, Initialisierung Si = T (gleichmäßige Verteilung)
Iterative Optimierung (K Iterationen):
- Beschneidung basierend auf aktuellem S zur Erzeugung von Wpruned
- Berechnung der beschnittenen Ausgabe Ŷ ← WprunedX
- Bewertung der Gesamtqualität qk ← Qmetric(Y, Ŷ)
- Aktualisierung der besten Konfiguration (falls qk > qbest)
- Berechnung der Qualität pro Dimension ci ← QmetricDimwise(Yi,:, Ŷi,:)
- Normalisierung der Qualitätswerte auf 0,1-Bereich
- Anpassung der Sparsitätsrate basierend auf Lernrate α: δi ← αc'i
- Neuzentrierung zur Beibehaltung der Durchschnittsbeschränkung: Si ← δi - (1/D)Σδj + T
Rückgabe: Optimale Sparsitätszuweisung Sbest

Qualitätsmetriken

Schichtqualität: Verwendung von Kosinusähnlichkeit zur Bewertung der Beschneidungsqualität der gesamten Schicht
Dimensionsqualität: Berechnung der Kosinusähnlichkeit für jede Ausgabedimension zur Steuerung der Sparsitätsanpassung

Technische Innovationen

Adaptive Lernrate: Unterstützung positiver und negativer Lernraten; positive Lernrate reduziert Qualitätsvarianz, negative Lernrate eignet sich für Schichten mit konzentrierten Ausreißern
Minimierung der Qualitätsvarianz: Verbesserung der Gesamtleistung durch Verringerung der Varianz des Qualitätsabbaus zwischen Dimensionen
Kompatibilitätsdesign: Integration mit bestehenden Bewertungsregeln (Wanda, Magnitude, SparseGPT, GBLM)

Experimentelle Einrichtung

Datensätze

Modelle: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
Evaluierungsdaten: WikiText-Validierungssatz (Verwirrung), C4 und Pile (Verallgemeinerungsvalidierung)
Nachgelagerte Aufgaben: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA

Bewertungsmetriken

Verwirrung: Bewertung der Sprachmodellierungsfähigkeit auf dem WikiText-Validierungssatz
Zero-Shot-Genauigkeit: Durchschnittliche Leistung auf 7 nachgelagerten Aufgaben

Vergleichsmethoden

Baseline-Methoden: OWL, AlphaPruning (basierend auf Wanda)
Ablationsstudien: Auswirkungen verschiedener Qualitätsmetriken, Lernrateneinstellungen und Iterationszahlen

Implementierungsdetails

Kalibrierungsbeispiele: Zufällig aus dem C4-Datensatz ausgewählt, Sequenzlänge 2048
Sparsitätsbeschränkungen: Maximale 95% pro Dimension zur Vermeidung von Überanpassung
Hyperparameter: K=10 Iterationen, Lernrate α durch Rastersuche bestimmt

Experimentelle Ergebnisse

Hauptergebnisse

Verwirrungsleistung (80% Sparsität)

Modell	OWL-Baseline	OWL+TRIM	Verbesserung
Qwen2.5-14B	348.48	180.67	-48%
OPT-13B	6461.43	324.14	-95%
LLaMA-2-13B	225.04	154.83	-31%

Zero-Shot-Aufgabenleistung

TRIM erreicht Leistungsverbesserungen über alle getesteten Modelle und Sparsitätsniveaus hinweg, mit durchschnittlichen Verbesserungen von 0,46-0,65 Prozentpunkten bei 80% Sparsität.

Ablationsstudien

Vergleich von Qualitätsmetriken

Schichtqualität: Kosinusähnlichkeit zeigt die stabilste Leistung
Dimensionsqualität: Kosinusähnlichkeit ist zuverlässiger als MSE und PSNR

Verallgemeinerung über verschiedene Beschneidungsindikatoren

TRIM zeigt Verbesserungen über verschiedene Bewertungsregeln (Magnitude, SparseGPT, GBLM) hinweg und validiert die Universalität der Methode.

Wichtige Erkenntnisse

Beobachtung 1: Dimensionsheterogenität

Die Gini-Koeffizient-Analyse zeigt erhebliche Unterschiede in der Konzentration der Wichtigkeitswerte verschiedener Ausgabedimensionen, was zu unterschiedlichen Beschneidungsempfindlichkeiten führt.

Beobachtung 2: Nichtlinearer Qualitätsabbau

Mit zunehmender Sparsität zeigt sich ein beschleunigter Qualitätsabbau, was die Bedeutung feiner Zuweisung unterstreicht.

Beobachtung 3: Unterschiede in der Dimensionswichtigkeit

Experimente zeigen enorme Unterschiede in den Auswirkungen der vollständigen Entfernung einzelner Dimensionen:

Dimension mit minimaler L2-Norm: Verwirrung nimmt nur um 0,16 zu
Dimension mit maximaler L2-Norm: Verwirrung springt auf 273,10

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Notwendigkeit der Sparsitätszuweisung auf Dimensionsebene: Bei extremer Sparsität ist feine Kontrolle entscheidend für die Aufrechterhaltung der Modellleistung
Wirksamkeit der Minimierung der Qualitätsvarianz: Signifikante Leistungsverbesserungen durch Ausgleich des Qualitätsabbaus zwischen Dimensionen
Universalität der Methode: TRIM kann mit mehreren bestehenden Beschneidungsalgorithmen integriert werden und bietet gute Erweiterbarkeit

Einschränkungen

Komplexität der Lernratenwahl: Schichten mit konzentrierten Ausreißern erfordern negative Lernraten, was die Komplexität der Hyperparameter-Optimierung erhöht
Unstrukturierte Sparsität: Die aktuelle Methode unterstützt nicht direkt strukturierte Sparsitätsmuster wie n:m
Rechenaufwand: Der iterative Prozess erhöht die Laufzeit um etwa 8%

Zukünftige Richtungen

Unterstützung strukturierter Sparsität: Erweiterung von TRIM zur Unterstützung hardwarefreundlicher Sparsitätsmuster
Automatische Lernratenwahl: Entwicklung adaptiver Mechanismen zur Reduzierung des Hyperparameter-Optimierungsbedarfs
Theoretische Analyse: Etablierung eines theoretischen Rahmens für Dimensionswichtigkeit und Beschneidungsempfindlichkeit

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erstmalige Einführung der Sparsitätszuweisung auf Dimensionsebene mit neuartigem Ansatz
Umfangreiche Experimente: Validierung der Methodenwirksamkeit über mehrere Modellserien und Aufgaben
Theoretische Unterstützung: Tiefgreifende Analyse offenbart die Grundursachen der Methodenwirksamkeit
Hoher praktischer Wert: Das Plug-and-Play-Design ermöglicht einfache Integration in bestehende Systeme

Mängel

Methodenkomplexität: Erhöhte Algorithmen-Komplexität und Hyperparameter im Vergleich zu Baseline-Methoden
Hardwareanpassung: Unstrukturierte Sparsität begrenzt Beschleunigungseffekte auf spezialisierter Hardware
Unzureichende theoretische Analyse: Mangel an theoretischen Garantien für optimale Sparsitätszuweisung

Einfluss

Akademischer Beitrag: Eröffnet neue Forschungsrichtungen im LLM-Beschneidungsbereich
Praktischer Wert: Bedeutsam für die Bereitstellung großer Modelle in ressourcenbeschränkten Umgebungen
Reproduzierbarkeit: Bereitstellung von Open-Source-Code erleichtert nachfolgende Forschung

Anwendungsszenarien

Anforderungen extremer Sparsität: Besonders geeignet für Szenarien mit >70% Sparsitätsanforderungen
Ressourcenbeschränkte Umgebungen: Edge-Geräte, mobile Endgeräte usw. mit begrenzten Rechenressourcen
Forschungszwecke: Bietet neue Benchmarks und Perspektiven für Beschneidungsalgorithmusforschung

Literaturverzeichnis

Der Artikel zitiert wichtige Arbeiten im Beschneidungsbereich, darunter:

Klassische Beschneidungsmethoden: Le Cun et al. (1989), Han et al. (2015)
Moderne LLM-Beschneidung: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
Schichtadaptive Methoden: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning

Zusammenfassung: TRIM verbessert die LLM-Beschneidungsleistung bei extremer Sparsität erheblich durch die Einführung von Sparsitätszuweisung auf Dimensionsebene. Die Methode hat wichtigen theoretischen Wert und praktische Bedeutung und eröffnet neue Forschungsrichtungen im Bereich der Großmodellkompression. Trotz einiger Einschränkungen machen ihre Innovativität und Wirksamkeit sie zu einem wichtigen Beitrag in diesem Bereich.