2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.
Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
academic

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Grundinformationen

  • Papier-ID: 2510.09332
  • Titel: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
  • Autoren: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
  • Institutionen: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.09332

Zusammenfassung

Obwohl große Sprachmodelle außergewöhnliche Leistungen erbracht haben, behindert ihre enorme Parameterzahl die Bereitstellung auf ressourcenbegrenzter Hardware. Niedrigrangige Kompression kann den Speicherverbrauch und die Rechenanforderungen reduzieren, aber die Anwendung einheitlicher Kompressionsraten auf alle Schichten führt häufig zu erheblichen Leistungseinbußen, und bestehende Methoden zeigen schlechte Leistung in der Dekodierungsphase. Um diese Probleme zu lösen, wird in diesem Papier der Fine-grained Low-Rank Compressor (FLRC) vorgestellt, der effizient optimale Rangzuweisungen für jede Schicht bestimmen kann und progressive niedrigrangige Dekodierung kombiniert, um die Textgenerierungsqualität zu bewahren. Umfassende Experimente auf verschiedenen Benchmarks demonstrieren die Überlegenheit von FLRC und erreichen bis zu 17% ROUGE-L-Verbesserung gegenüber modernsten niedrigrangigen Kompressionsmethoden bei Zusammenfassungsaufgaben.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme, denen sich große Sprachmodelle (LLMs) gegenübersehen, sind:

  1. Bereitstellungsschwierigkeiten: Die enormen Parameterzahlen und hohen Rechenanforderungen machen die Bereitstellung in ressourcenbegrenzten Umgebungen wie Mobilgeräten und Edge-Servern schwierig
  2. Unzureichende Kompressionseffektivität: Bestehende niedrigrangige Kompressionsmethoden verwenden einheitliche Kompressionsraten und ignorieren die unterschiedliche Kompressionstoleranz verschiedener Schichten
  3. Leistungsabfall bei der Dekodierung: Bestehende Methoden konzentrieren sich hauptsächlich auf die Prefill-Phase und zeigen erhebliche Leistungseinbußen bei mehrrundigen Dekodierungsaufgaben (wie Textzusammenfassung)

Forschungsmotivation

  1. Praktische Bereitstellungsanforderungen: Mit der weit verbreiteten Anwendung von LLMs wird die Notwendigkeit einer effizienten Bereitstellung auf ressourcenbegrenzten Geräten immer dringlicher
  2. Einschränkungen bestehender Methoden: Einheitliche Kompressionsstrategien können die Heterogenität der Modellstruktur nicht vollständig nutzen
  3. Qualitätssicherung bei der Dekodierung: Textgenerierungsaufgaben stellen hohe Anforderungen an die Qualität der kontinuierlichen Dekodierung und erfordern spezialisierte Optimierungsstrategien

Kernbeiträge

  1. Vorschlag eines Fisher-basierten Schicht-Rangzuweisungsalgorithmus: Basierend auf Wichtigkeitsmessungen von Gradienten und Gewichten wird die optimale Rangzuweisung für jede Projektionsschicht bestimmt, was die Suchzeit um das 49-fache im Vergleich zur ASVD-Methode reduziert
  2. Einführung eines progressiven niedrigrangigen Dekodierungsmechanismus: Dynamische Anpassung der Rangzuweisung während des Dekodierungsprozesses, wobei frühe Token mehr Parameter verwenden und später schrittweise reduziert werden, während die Generierungsqualität erhalten bleibt und die Kompressionsrate verbessert wird
  3. Etablierung eines feingranularen Kompressionssystems: Kombination von Schicht-Rangzuweisung und progressiver Dekodierung zu einer umfassenden LLM-Kompressionslösung
  4. Erreichung signifikanter Leistungsverbesserungen: ROUGE-L-Punktzahl bei Zusammenfassungsaufgaben um bis zu 17,35% gegenüber bestehenden Methoden verbessert, während gleichzeitig hervorragende Leistung bei Verständnisaufgaben erhalten bleibt

Methodische Details

Aufgabendefinition

Eingabe: Vortrainiertes großes Sprachmodell M, Zielkompressionsrate Ausgabe: Komprimiertes Modell, das die Generierungsqualität bewahrt und gleichzeitig Parameterzahl und Rechenaufwand reduziert Einschränkungen: Maximierung der Modellleistung unter gegebenem Parameterbudget

Modellarchitektur

1. Fisher-basierte Schicht-Rangzuweisung

Die Kernidee dieses Algorithmus besteht darin, verschiedene Ränge für jede Projektionsschicht im Modell zuzuweisen, basierend auf ihrer Wichtigkeit mit differenzierter Kompression.

Wichtigkeitsberechnung: Für jede Projektion p in Schicht l wird die Wichtigkeitsmessung definiert als:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

wobei Gl,p der Gradient und Wl,p die Gewichtsparameter sind.

Rangzuweisungsstrategie:

rl,p = round(αl,p/S × Rbudget)

wobei S die Gesamtwichtigkeitspunktzahl und Rbudget das Gesamtrangbudget ist.

Algorithmusablauf:

  1. Berechnung der Gradienten für jede Projektionsschicht mit Kalibrierungsdatensatz
  2. Berechnung der Wichtigkeitspunktzahl basierend auf Gradienten und Gewichten
  3. Zuweisung des Rangbudgets proportional zur Wichtigkeit
  4. Generierung des Schicht-Rangzuweisungsplans

2. Progressive niedrigrangige Dekodierung

Dieser Mechanismus basiert auf der Beobachtung, dass frühe Token bei der Textgenerierung einen größeren Einfluss auf die Gesamtkohärenz und Qualität haben.

Dynamische Ranganpassung:

rl,p(t) = round(αl,p/S × Rbudget(t))

wobei Rbudget(t) das Rangbudget für das t-te Token ist und die Nicht-Zunahme-Eigenschaft erfüllt.

Planungsstrategie:

  • Frühe Token: Verwendung größerer Parametersätze zur Gewährleistung der Generierungsqualität
  • Späte Token: Schrittweise Reduzierung der Rangkonfiguration zur Verbesserung der Gesamtkompressionsrate
  • Bestimmung des optimalen Zeitplans durch Kalibrierungsdatensatz

Technische Innovationen

  1. Anwendung des Fisher-Informationskriteriums: Kombination von Gradienten- und Gewichtsinformationen zur Bewertung der Projektionswichtigkeit, genauer als Methoden, die nur auf Gewichtsamplitude oder Gradienten basieren
  2. Dynamisches Kompressionsmuster: Überwindung der Einschränkungen statischer Kompression durch dynamische Anpassung der Kompressionsrate basierend auf den Merkmalen des Generierungsprozesses
  3. Feingranulare Optimierung: Optimierung auf Projektionsebene statt auf Schichtebene für präzisere Ressourcenverteilung
  4. End-to-End-Framework: Vereinigung von Rangzuweisung und dynamischer Dekodierung in einem Framework mit synergistischer Optimierung

Experimentelle Einrichtung

Datensätze

  1. Zusammenfassungsaufgaben: DialogSum, CNN/DM
  2. Verständnisaufgaben: Wikitext2 (Verwirrung), 7 Zero-Shot-Aufgaben in LM-Evaluation-Harness
  3. Kalibrierungsdaten:
    • Rangzuweisung: 256 Sequenzen (Länge 2048) aus Wikitext2-Trainingssatz
    • Scheduler: 500 Proben aus DialogSum-Trainingssatz

Bewertungsmetriken

  1. Generierungsaufgaben: ROUGE-L, BERTScore
  2. Verständnisaufgaben: Verwirrung, Zero-Shot-Genauigkeit
  3. Effizienzmetriken: Suchzeit, Inferenzgeschwindigkeit

Vergleichsmethoden

  1. ASVD: Aktivierungsbewusstes Singular Value Decomposition
  2. SVD-LLM: Truncation-bewusste Datenweiß-Methode
  3. Ablationsstudien: Separate Tests der Beiträge von FLRA- und PLRD-Komponenten

Implementierungsdetails

  • Modelle: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct, etc.
  • Kompressionsraten: 10%, 20%, 30% und weitere Stufen
  • Hardware: A100 GPU
  • Basierend auf SVD-LLM-Prozess mit Anwendung von FLRC-Rangzuweisung und progressiven Dekodierungsmodulen

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei Generierungsaufgaben

Auf LLaMA-3-8B-Instruct mit 20% Kompressionsrate:

  • DialogSum ROUGE-L: FLRC 17,35% vs ASVD 0,10% vs SVD-LLM 0,24%
  • CNN/DM ROUGE-L: FLRC 17,72% vs ASVD 0,54% vs SVD-LLM 6,29%

Leistung bei Verständnisaufgaben

Auf LLaMA-3-8B mit 20% Kompressionsrate:

  • Wikitext2-Verwirrung: FLRC 12,53 vs ASVD 3206,80 vs SVD-LLM 14,72
  • Durchschnittliche Zero-Shot-Genauigkeit: FLRC 43,66% vs ASVD 31,58% vs SVD-LLM 41,63%

Effizienzverbesserungen

  • Suchzeit: FLRC 3 Minuten vs ASVD 147 Minuten (49-fache Beschleunigung)
  • Inferenzbeschleunigung: Bis zu 2,12-fache Beschleunigung in Offloading-Szenarien

Ablationsstudien

Auf LLaMA-3-8B-Instruct mit 20% Kompressionsrate bei DialogSum-Aufgabe:

  • Nur SVD-LLM: 0,24% ROUGE-L
  • SVD-LLM + FLRA: 13,28% ROUGE-L
  • SVD-LLM + FLRA + PLRD: 17,35% ROUGE-L

Die Ergebnisse zeigen, dass beide Komponenten signifikant zur Leistungsverbesserung beitragen.

Fallstudienanalyse

Durch Wichtigkeitsanalyse wurden folgende Erkenntnisse gewonnen:

  • Enorme Unterschiede in der Projektionswichtigkeit zwischen verschiedenen Schichten
  • down_proj weist typischerweise die höchsten Wichtigkeitspunktzahlen auf
  • Spätere Schichten sind empfindlicher gegenüber Kompression als frühere Schichten

Experimentelle Erkenntnisse

  1. Schicht-Heterogenität: Signifikante Unterschiede in der Kompressionstoleranz verschiedener Modellschichten
  2. Dekodierungsempfindlichkeit: Generierungsaufgaben sind empfindlicher gegenüber Kompressionsraten als Verständnisaufgaben
  3. Skalierungseffekt: Die Vorteile von FLRC sind bei größeren Modellen noch ausgeprägter
  4. Universalität: Die Methode bleibt bei verschiedenen Modellarchitekturen und Präzisionen wirksam

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Modellkompressionstechniken: Einschließlich Pruning, Quantisierung, Wissensdestillation, etc.
  2. Niedrigrangige Zerlegungsmethoden: SVD-basierte Parametrische Matrixzerlegungstechniken
  3. Dynamische Inferenz: Anpassung der Modellkonfiguration basierend auf Eingabe oder Rechenphasen

Beziehung dieser Arbeit zu verwandten Arbeiten

  1. Im Vergleich zu ASVD: Vorschlag eines effizienteren Rangzuweisungsalgorithmus mit drastisch reduzierter Suchzeit
  2. Im Vergleich zu SVD-LLM: Einführung eines dynamischen Dekodierungsmechanismus mit signifikanter Verbesserung der Generierungsaufgabenleistung
  3. Im Vergleich zu anderen Zuweisungsmethoden: Fisher-basierte Methode ist effizienter und genauer als Hessian-basierte und Bayesian-Optimierungsmethoden

Vergleichende Vorteile

  1. Effizienzvorteile: Rangzuweisung in einer einzigen Iteration ohne Zeitaufwand iterativer Optimierung
  2. Genauigkeitsvorteile: Feingranulare Optimierung auf Projektionsebene ist präziser als Optimierung auf Schicht- oder Blockebene
  3. Adaptivitätsvorteile: Dynamischer Anpassungsmechanismus passt sich besser an die Merkmale von Generierungsaufgaben an

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektivität feingranularer Kompression: Differenzierte Kompression auf Projektionsebene ist deutlich überlegen gegenüber einheitlichen Kompressionsstrategien
  2. Notwendigkeit dynamischer Dekodierung: Progressive Ranganpassung ist entscheidend für die Bewahrung der Generierungsqualität
  3. Universalität der Methode: FLRC zeigt hervorragende Leistung bei verschiedenen Modellgrößen und Aufgabentypen
  4. Praktischer Wert: Stark verbesserte Sucheffizienz macht die Methode für praktische Bereitstellung wertvoll

Einschränkungen

  1. Abhängigkeit von Kalibrierungsdaten: Die Methodenleistung wird durch die Auswahl des Kalibrierungsdatensatzes beeinflusst, unterschiedliche Datensätze können zu Leistungsvariationen führen
  2. Scheduler-Overhead: Dynamische Rangzuweisung führt zusätzliche Rechenkosten ein, die weitere technische Optimierung erfordern
  3. Speicherbegrenzte Szenarien: Die Methode ist in speicherbegrenzten Umgebungen effektiver, aber in rechenbegrenzten Szenarien möglicherweise weniger vorteilhaft

Zukünftige Richtungen

  1. Technische Optimierung: Fokus auf Reduzierung des Overheads dynamischer Rangzuweisung und Entwurf spezialisierter Kernel
  2. Adaptive Planung: Entwicklung intelligenterer Planungsalgorithmen zur Reduzierung der Abhängigkeit von Kalibrierungsdaten
  3. Multimodale Erweiterung: Erweiterung der Methode auf die Kompression multimodaler großer Modelle

Tiefgreifende Bewertung

Stärken

  1. Starke Innovativität: Erstmalige Anwendung des Fisher-Informationskriteriums auf feingranulare Rangzuweisung für LLMs mit neuem dynamischen Dekodierungsparadigma
  2. Umfassende Experimente: Abdeckung verschiedener Modelle, Aufgaben und Kompressionsraten mit gut gestalteten Ablationsstudien
  3. Signifikante Ergebnisse: Durchbruchhafte Verbesserungen bei Generierungsaufgaben, die Schlüsselprobleme bestehender Methoden lösen
  4. Hoher praktischer Wert: Stark reduzierte Suchzeit und gute Beschleunigungseffekte haben praktische Bereitstellungswert
  5. Tiefgreifende Analyse: Reichhaltige Analyseergebnisse einschließlich Wichtigkeitsvisualisierung und Sensitivitätsanalyse

Mängel

  1. Theoretische Grundlagen: Fehlende theoretische Analyse, warum Fisher-basierte Wichtigkeitsmessung optimal ist
  2. Planungsstrategie: Progressive Dekodierungsplanungsstrategie basiert hauptsächlich auf Erfahrung, mangelt theoretische Anleitung
  3. Hardware-Optimierung: Implementierungsdetails der dynamischen Rangzuweisung auf Hardware sind nicht ausreichend detailliert
  4. Vergleichsbereich: Hauptsächlich Vergleich mit SVD-basierten Methoden, begrenzte Vergleiche mit anderen Kompressionstechniken

Einfluss

  1. Akademischer Beitrag: Bietet neue Forschungsrichtungen und technische Wege für das LLM-Kompressionsfeld
  2. Praktischer Wert: Signifikante Leistungsverbesserungen und Effizienzgewinne haben wichtigen industriellen Anwendungswert
  3. Reproduzierbarkeit: Klare Methodenbeschreibung und detaillierte experimentelle Einrichtung mit guter Reproduzierbarkeit
  4. Inspirationswert: Das Konzept der dynamischen Kompression kann weitere verwandte Forschung inspirieren

Anwendungsszenarien

  1. Edge-Bereitstellung: Besonders geeignet für ressourcenbegrenzte Umgebungen wie Mobilgeräte und Edge-Server
  2. Speicherbegrenzte Szenarien: Besonders effektiv, wenn Modell-Offloading erforderlich ist
  3. Generierungsaufgaben: Besonderer Wert für Textzusammenfassung, Dialoggenerierung und ähnliche Aufgaben
  4. Großskalige Modelle: Vorteile sind bei größeren Modellen noch ausgeprägter

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  1. Yuan et al., 2023 - ASVD-Methode
  2. Wang et al., 2024 - SVD-LLM-Methode
  3. Touvron et al., 2023 - LLaMA-Modellserie
  4. Mehrere Literaturangaben zu Benchmark-Datensätzen und Bewertungswerkzeugen

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das innovative Lösungen für Schlüsselprobleme im LLM-Kompressionsfeld bietet. Die Methodengestaltung ist vernünftig, die experimentelle Validierung umfassend, die Ergebnisse signifikant und es hat wichtigen akademischen und praktischen Wert. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Hardware-Optimierung gibt, ist es insgesamt ein wichtiger Beitrag zu diesem Forschungsgebiet.