2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.

Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.

academic

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Grundinformationen

Papier-ID: 2510.09332
Titel: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
Autoren: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
Institutionen: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
Klassifizierung: cs.CL cs.AI
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.09332

Zusammenfassung

Obwohl große Sprachmodelle außergewöhnliche Leistungen erbracht haben, behindert ihre enorme Parameterzahl die Bereitstellung auf ressourcenbegrenzter Hardware. Niedrigrangige Kompression kann den Speicherverbrauch und die Rechenanforderungen reduzieren, aber die Anwendung einheitlicher Kompressionsraten auf alle Schichten führt häufig zu erheblichen Leistungseinbußen, und bestehende Methoden zeigen schlechte Leistung in der Dekodierungsphase. Um diese Probleme zu lösen, wird in diesem Papier der Fine-grained Low-Rank Compressor (FLRC) vorgestellt, der effizient optimale Rangzuweisungen für jede Schicht bestimmen kann und progressive niedrigrangige Dekodierung kombiniert, um die Textgenerierungsqualität zu bewahren. Umfassende Experimente auf verschiedenen Benchmarks demonstrieren die Überlegenheit von FLRC und erreichen bis zu 17% ROUGE-L-Verbesserung gegenüber modernsten niedrigrangigen Kompressionsmethoden bei Zusammenfassungsaufgaben.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme, denen sich große Sprachmodelle (LLMs) gegenübersehen, sind:

Bereitstellungsschwierigkeiten: Die enormen Parameterzahlen und hohen Rechenanforderungen machen die Bereitstellung in ressourcenbegrenzten Umgebungen wie Mobilgeräten und Edge-Servern schwierig
Unzureichende Kompressionseffektivität: Bestehende niedrigrangige Kompressionsmethoden verwenden einheitliche Kompressionsraten und ignorieren die unterschiedliche Kompressionstoleranz verschiedener Schichten
Leistungsabfall bei der Dekodierung: Bestehende Methoden konzentrieren sich hauptsächlich auf die Prefill-Phase und zeigen erhebliche Leistungseinbußen bei mehrrundigen Dekodierungsaufgaben (wie Textzusammenfassung)

Forschungsmotivation

Praktische Bereitstellungsanforderungen: Mit der weit verbreiteten Anwendung von LLMs wird die Notwendigkeit einer effizienten Bereitstellung auf ressourcenbegrenzten Geräten immer dringlicher
Einschränkungen bestehender Methoden: Einheitliche Kompressionsstrategien können die Heterogenität der Modellstruktur nicht vollständig nutzen
Qualitätssicherung bei der Dekodierung: Textgenerierungsaufgaben stellen hohe Anforderungen an die Qualität der kontinuierlichen Dekodierung und erfordern spezialisierte Optimierungsstrategien

Kernbeiträge

Vorschlag eines Fisher-basierten Schicht-Rangzuweisungsalgorithmus: Basierend auf Wichtigkeitsmessungen von Gradienten und Gewichten wird die optimale Rangzuweisung für jede Projektionsschicht bestimmt, was die Suchzeit um das 49-fache im Vergleich zur ASVD-Methode reduziert
Einführung eines progressiven niedrigrangigen Dekodierungsmechanismus: Dynamische Anpassung der Rangzuweisung während des Dekodierungsprozesses, wobei frühe Token mehr Parameter verwenden und später schrittweise reduziert werden, während die Generierungsqualität erhalten bleibt und die Kompressionsrate verbessert wird
Etablierung eines feingranularen Kompressionssystems: Kombination von Schicht-Rangzuweisung und progressiver Dekodierung zu einer umfassenden LLM-Kompressionslösung
Erreichung signifikanter Leistungsverbesserungen: ROUGE-L-Punktzahl bei Zusammenfassungsaufgaben um bis zu 17,35% gegenüber bestehenden Methoden verbessert, während gleichzeitig hervorragende Leistung bei Verständnisaufgaben erhalten bleibt

Methodische Details

Aufgabendefinition

Eingabe: Vortrainiertes großes Sprachmodell M, Zielkompressionsrate Ausgabe: Komprimiertes Modell, das die Generierungsqualität bewahrt und gleichzeitig Parameterzahl und Rechenaufwand reduziert Einschränkungen: Maximierung der Modellleistung unter gegebenem Parameterbudget

Modellarchitektur

1. Fisher-basierte Schicht-Rangzuweisung

Die Kernidee dieses Algorithmus besteht darin, verschiedene Ränge für jede Projektionsschicht im Modell zuzuweisen, basierend auf ihrer Wichtigkeit mit differenzierter Kompression.

Wichtigkeitsberechnung: Für jede Projektion p in Schicht l wird die Wichtigkeitsmessung definiert als:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

wobei Gl,p der Gradient und Wl,p die Gewichtsparameter sind.

Rangzuweisungsstrategie:

rl,p = round(αl,p/S × Rbudget)

wobei S die Gesamtwichtigkeitspunktzahl und Rbudget das Gesamtrangbudget ist.

Algorithmusablauf:

Berechnung der Gradienten für jede Projektionsschicht mit Kalibrierungsdatensatz
Berechnung der Wichtigkeitspunktzahl basierend auf Gradienten und Gewichten
Zuweisung des Rangbudgets proportional zur Wichtigkeit
Generierung des Schicht-Rangzuweisungsplans

2. Progressive niedrigrangige Dekodierung

Dieser Mechanismus basiert auf der Beobachtung, dass frühe Token bei der Textgenerierung einen größeren Einfluss auf die Gesamtkohärenz und Qualität haben.

Dynamische Ranganpassung:

rl,p(t) = round(αl,p/S × Rbudget(t))

wobei Rbudget(t) das Rangbudget für das t-te Token ist und die Nicht-Zunahme-Eigenschaft erfüllt.

Planungsstrategie:

Frühe Token: Verwendung größerer Parametersätze zur Gewährleistung der Generierungsqualität
Späte Token: Schrittweise Reduzierung der Rangkonfiguration zur Verbesserung der Gesamtkompressionsrate
Bestimmung des optimalen Zeitplans durch Kalibrierungsdatensatz

Technische Innovationen

Anwendung des Fisher-Informationskriteriums: Kombination von Gradienten- und Gewichtsinformationen zur Bewertung der Projektionswichtigkeit, genauer als Methoden, die nur auf Gewichtsamplitude oder Gradienten basieren
Dynamisches Kompressionsmuster: Überwindung der Einschränkungen statischer Kompression durch dynamische Anpassung der Kompressionsrate basierend auf den Merkmalen des Generierungsprozesses
Feingranulare Optimierung: Optimierung auf Projektionsebene statt auf Schichtebene für präzisere Ressourcenverteilung
End-to-End-Framework: Vereinigung von Rangzuweisung und dynamischer Dekodierung in einem Framework mit synergistischer Optimierung

Experimentelle Einrichtung

Datensätze

Zusammenfassungsaufgaben: DialogSum, CNN/DM
Verständnisaufgaben: Wikitext2 (Verwirrung), 7 Zero-Shot-Aufgaben in LM-Evaluation-Harness
Kalibrierungsdaten:
- Rangzuweisung: 256 Sequenzen (Länge 2048) aus Wikitext2-Trainingssatz
- Scheduler: 500 Proben aus DialogSum-Trainingssatz

Bewertungsmetriken

Generierungsaufgaben: ROUGE-L, BERTScore
Verständnisaufgaben: Verwirrung, Zero-Shot-Genauigkeit
Effizienzmetriken: Suchzeit, Inferenzgeschwindigkeit

Vergleichsmethoden

ASVD: Aktivierungsbewusstes Singular Value Decomposition
SVD-LLM: Truncation-bewusste Datenweiß-Methode
Ablationsstudien: Separate Tests der Beiträge von FLRA- und PLRD-Komponenten

Implementierungsdetails

Modelle: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct, etc.
Kompressionsraten: 10%, 20%, 30% und weitere Stufen
Hardware: A100 GPU
Basierend auf SVD-LLM-Prozess mit Anwendung von FLRC-Rangzuweisung und progressiven Dekodierungsmodulen

Experimentelle Ergebnisse

Hauptergebnisse

Leistung bei Generierungsaufgaben

Auf LLaMA-3-8B-Instruct mit 20% Kompressionsrate:

DialogSum ROUGE-L: FLRC 17,35% vs ASVD 0,10% vs SVD-LLM 0,24%
CNN/DM ROUGE-L: FLRC 17,72% vs ASVD 0,54% vs SVD-LLM 6,29%

Leistung bei Verständnisaufgaben

Auf LLaMA-3-8B mit 20% Kompressionsrate:

Wikitext2-Verwirrung: FLRC 12,53 vs ASVD 3206,80 vs SVD-LLM 14,72
Durchschnittliche Zero-Shot-Genauigkeit: FLRC 43,66% vs ASVD 31,58% vs SVD-LLM 41,63%

Effizienzverbesserungen

Suchzeit: FLRC 3 Minuten vs ASVD 147 Minuten (49-fache Beschleunigung)
Inferenzbeschleunigung: Bis zu 2,12-fache Beschleunigung in Offloading-Szenarien

Ablationsstudien

Auf LLaMA-3-8B-Instruct mit 20% Kompressionsrate bei DialogSum-Aufgabe:

Nur SVD-LLM: 0,24% ROUGE-L
SVD-LLM + FLRA: 13,28% ROUGE-L
SVD-LLM + FLRA + PLRD: 17,35% ROUGE-L

Die Ergebnisse zeigen, dass beide Komponenten signifikant zur Leistungsverbesserung beitragen.

Fallstudienanalyse

Durch Wichtigkeitsanalyse wurden folgende Erkenntnisse gewonnen:

Enorme Unterschiede in der Projektionswichtigkeit zwischen verschiedenen Schichten
down_proj weist typischerweise die höchsten Wichtigkeitspunktzahlen auf
Spätere Schichten sind empfindlicher gegenüber Kompression als frühere Schichten

Experimentelle Erkenntnisse

Schicht-Heterogenität: Signifikante Unterschiede in der Kompressionstoleranz verschiedener Modellschichten
Dekodierungsempfindlichkeit: Generierungsaufgaben sind empfindlicher gegenüber Kompressionsraten als Verständnisaufgaben
Skalierungseffekt: Die Vorteile von FLRC sind bei größeren Modellen noch ausgeprägter
Universalität: Die Methode bleibt bei verschiedenen Modellarchitekturen und Präzisionen wirksam

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Effektivität feingranularer Kompression: Differenzierte Kompression auf Projektionsebene ist deutlich überlegen gegenüber einheitlichen Kompressionsstrategien
Notwendigkeit dynamischer Dekodierung: Progressive Ranganpassung ist entscheidend für die Bewahrung der Generierungsqualität
Universalität der Methode: FLRC zeigt hervorragende Leistung bei verschiedenen Modellgrößen und Aufgabentypen
Praktischer Wert: Stark verbesserte Sucheffizienz macht die Methode für praktische Bereitstellung wertvoll

Einschränkungen

Abhängigkeit von Kalibrierungsdaten: Die Methodenleistung wird durch die Auswahl des Kalibrierungsdatensatzes beeinflusst, unterschiedliche Datensätze können zu Leistungsvariationen führen
Scheduler-Overhead: Dynamische Rangzuweisung führt zusätzliche Rechenkosten ein, die weitere technische Optimierung erfordern
Speicherbegrenzte Szenarien: Die Methode ist in speicherbegrenzten Umgebungen effektiver, aber in rechenbegrenzten Szenarien möglicherweise weniger vorteilhaft

Zukünftige Richtungen

Technische Optimierung: Fokus auf Reduzierung des Overheads dynamischer Rangzuweisung und Entwurf spezialisierter Kernel
Adaptive Planung: Entwicklung intelligenterer Planungsalgorithmen zur Reduzierung der Abhängigkeit von Kalibrierungsdaten
Multimodale Erweiterung: Erweiterung der Methode auf die Kompression multimodaler großer Modelle

Tiefgreifende Bewertung

Stärken

Starke Innovativität: Erstmalige Anwendung des Fisher-Informationskriteriums auf feingranulare Rangzuweisung für LLMs mit neuem dynamischen Dekodierungsparadigma
Umfassende Experimente: Abdeckung verschiedener Modelle, Aufgaben und Kompressionsraten mit gut gestalteten Ablationsstudien
Signifikante Ergebnisse: Durchbruchhafte Verbesserungen bei Generierungsaufgaben, die Schlüsselprobleme bestehender Methoden lösen
Hoher praktischer Wert: Stark reduzierte Suchzeit und gute Beschleunigungseffekte haben praktische Bereitstellungswert
Tiefgreifende Analyse: Reichhaltige Analyseergebnisse einschließlich Wichtigkeitsvisualisierung und Sensitivitätsanalyse

Mängel

Theoretische Grundlagen: Fehlende theoretische Analyse, warum Fisher-basierte Wichtigkeitsmessung optimal ist
Planungsstrategie: Progressive Dekodierungsplanungsstrategie basiert hauptsächlich auf Erfahrung, mangelt theoretische Anleitung
Hardware-Optimierung: Implementierungsdetails der dynamischen Rangzuweisung auf Hardware sind nicht ausreichend detailliert
Vergleichsbereich: Hauptsächlich Vergleich mit SVD-basierten Methoden, begrenzte Vergleiche mit anderen Kompressionstechniken

Einfluss

Akademischer Beitrag: Bietet neue Forschungsrichtungen und technische Wege für das LLM-Kompressionsfeld
Praktischer Wert: Signifikante Leistungsverbesserungen und Effizienzgewinne haben wichtigen industriellen Anwendungswert
Reproduzierbarkeit: Klare Methodenbeschreibung und detaillierte experimentelle Einrichtung mit guter Reproduzierbarkeit
Inspirationswert: Das Konzept der dynamischen Kompression kann weitere verwandte Forschung inspirieren

Anwendungsszenarien

Edge-Bereitstellung: Besonders geeignet für ressourcenbegrenzte Umgebungen wie Mobilgeräte und Edge-Server
Speicherbegrenzte Szenarien: Besonders effektiv, wenn Modell-Offloading erforderlich ist
Generierungsaufgaben: Besonderer Wert für Textzusammenfassung, Dialoggenerierung und ähnliche Aufgaben
Großskalige Modelle: Vorteile sind bei größeren Modellen noch ausgeprägter

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

Yuan et al., 2023 - ASVD-Methode
Wang et al., 2024 - SVD-LLM-Methode
Touvron et al., 2023 - LLaMA-Modellserie
Mehrere Literaturangaben zu Benchmark-Datensätzen und Bewertungswerkzeugen

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das innovative Lösungen für Schlüsselprobleme im LLM-Kompressionsfeld bietet. Die Methodengestaltung ist vernünftig, die experimentelle Validierung umfassend, die Ergebnisse signifikant und es hat wichtigen akademischen und praktischen Wert. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Hardware-Optimierung gibt, ist es insgesamt ein wichtiger Beitrag zu diesem Forschungsgebiet.