2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.

Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.

academic

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Informazioni Fondamentali

ID Articolo: 2510.09332
Titolo: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
Autori: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
Istituzioni: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
Classificazione: cs.CL cs.AI
Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.09332

Riassunto

Sebbene i modelli linguistici di grandi dimensioni abbiano raggiunto prestazioni eccezionali, l'enorme quantità di parametri ostacola il loro dispiegamento su hardware con risorse limitate. La compressione a basso rango può ridurre l'utilizzo della memoria e i requisiti computazionali, tuttavia l'applicazione di un rapporto di compressione uniforme su tutti gli strati spesso comporta una significativa degradazione delle prestazioni, e i metodi esistenti mostrano prestazioni scadenti durante la fase di decodifica. Per affrontare questi problemi, questo articolo propone il Fine-grained Low-Rank Compressor (FLRC), che può determinare efficientemente l'allocazione ottimale del rango per ogni strato e combinare la decodifica a basso rango progressiva per mantenere la qualità della generazione di testo. Gli esperimenti completi su diversi benchmark dimostrano la superiorità di FLRC, raggiungendo un miglioramento ROUGE-L fino al 17% rispetto ai metodi di compressione a basso rango all'avanguardia nei compiti di riassunto.

Contesto di Ricerca e Motivazione

Definizione del Problema

I problemi fondamentali affrontati dai modelli linguistici di grandi dimensioni (LLM) sono:

Difficoltà di Dispiegamento: L'enorme quantità di parametri e gli elevati requisiti computazionali rendono difficile il dispiegamento in ambienti con risorse limitate come dispositivi mobili e server edge
Compressione Inefficace: I metodi di compressione a basso rango esistenti utilizzano un rapporto di compressione uniforme, ignorando le differenze nella tolleranza alla compressione tra i diversi strati
Degradazione delle Prestazioni di Decodifica: I metodi esistenti si concentrano principalmente sulla fase di pre-riempimento, mostrando una significativa degradazione delle prestazioni nei compiti di decodifica multi-turno (come il riassunto di testo)

Motivazione della Ricerca

Esigenze di Dispiegamento Pratico: Con la diffusione delle applicazioni LLM, la necessità di dispiegamento efficiente su dispositivi con risorse limitate diventa sempre più urgente
Limitazioni dei Metodi Esistenti: Le strategie di compressione uniforme non riescono a sfruttare pienamente l'eterogeneità della struttura del modello
Garanzia della Qualità di Decodifica: I compiti di generazione di testo richiedono un'elevata qualità di decodifica continua, necessitando di strategie di ottimizzazione specializzate

Contributi Principali

Propone un Algoritmo di Allocazione del Rango a Livello di Strato Basato su Fisher: Basato sulla misurazione dell'importanza del gradiente e del peso, determina l'allocazione ottimale del rango per ogni strato di proiezione, riducendo il tempo di ricerca di 49 volte rispetto al metodo ASVD
Introduce un Meccanismo di Decodifica a Basso Rango Progressiva: Regola dinamicamente l'allocazione del rango durante il processo di decodifica, utilizzando più parametri per i token iniziali e riducendoli gradualmente in seguito, aumentando il tasso di compressione mantenendo la qualità della generazione
Stabilisce un Framework di Compressione Fine-grained: Combina l'allocazione del rango a livello di strato con la decodifica progressiva, formando una soluzione completa di compressione LLM
Realizza Miglioramenti Significativi delle Prestazioni: Nei compiti di riassunto, il punteggio ROUGE-L migliora fino al 17,35% rispetto ai metodi esistenti, mantenendo al contempo prestazioni eccellenti nei compiti di comprensione

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Modello linguistico di grandi dimensioni pre-addestrato M, rapporto di compressione target Output: Modello compresso che riduce la quantità di parametri e il carico computazionale mantenendo la qualità della generazione Vincoli: Massimizzare le prestazioni del modello entro un budget di parametri specificato

Architettura del Modello

1. Allocazione del Rango a Livello di Strato Basata su Fisher

L'idea centrale di questo algoritmo è assegnare ranghi diversi a ogni strato di proiezione nel modello, basandosi su una compressione differenziata secondo la loro importanza.

Calcolo dell'Importanza: Per ogni proiezione p nello strato l, la misura dell'importanza è definita come:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

dove Gl,p è il gradiente e Wl,p sono i parametri di peso.

Strategia di Allocazione del Rango:

rl,p = round(αl,p/S × Rbudget)

dove S è il punteggio di importanza totale e Rbudget è il budget di rango totale.

Flusso dell'Algoritmo:

Calcolare i gradienti di ogni strato di proiezione utilizzando il dataset di calibrazione
Calcolare i punteggi di importanza basati su gradienti e pesi
Allocare il budget di rango in proporzione all'importanza
Generare lo schema di allocazione del rango a livello di strato

2. Decodifica a Basso Rango Progressiva

Questo meccanismo si basa sull'osservazione che nella generazione di testo, i token iniziali hanno un impatto maggiore sulla coerenza complessiva e sulla qualità.

Regolazione Dinamica del Rango:

rl,p(t) = round(αl,p/S × Rbudget(t))

dove Rbudget(t) è il budget di rango per il t-esimo token, soddisfacendo la proprietà non-crescente.

Strategia di Pianificazione:

Token iniziali: Utilizzano un insieme di parametri più ampio per garantire la qualità della generazione
Token successivi: Riducono gradualmente la configurazione del rango, migliorando il tasso di compressione complessivo
Determinare lo schema di pianificazione ottimale attraverso il dataset di calibrazione

Punti di Innovazione Tecnica

Applicazione del Criterio di Informazione Fisher: Combina informazioni di gradiente e peso per valutare l'importanza della proiezione, più accurato rispetto ai metodi basati solo su ampiezza del peso o gradiente
Paradigma di Compressione Dinamica: Supera i limiti della compressione statica, regolando dinamicamente il tasso di compressione in base alle caratteristiche del processo di generazione
Ottimizzazione Fine-grained: Esegue l'ottimizzazione a livello di proiezione piuttosto che a livello di strato, realizzando un'allocazione di risorse più precisa
Framework End-to-End: Unifica l'allocazione del rango e la decodifica dinamica in un unico framework, ottimizzando in modo coordinato

Configurazione Sperimentale

Dataset

Compiti di Riassunto: DialogSum, CNN/DM
Compiti di Comprensione: Wikitext2 (perplessità), 7 compiti zero-shot da LM-Evaluation-Harness
Dati di Calibrazione:
- Allocazione del rango: 256 sequenze dal dataset di addestramento Wikitext2 (lunghezza 2048)
- Pianificatore: 500 campioni dal dataset di addestramento DialogSum

Metriche di Valutazione

Compiti di Generazione: ROUGE-L, BERTScore
Compiti di Comprensione: Perplessità, accuratezza zero-shot
Metriche di Efficienza: Tempo di ricerca, velocità di inferenza

Metodi di Confronto

ASVD: Decomposizione ai valori singolari consapevole dell'attivazione
SVD-LLM: Metodo di sbiancamento dati consapevole del troncamento
Esperimenti di Ablazione: Testare separatamente i contributi dei componenti FLRA e PLRD

Dettagli di Implementazione

Modelli: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct, ecc.
Tassi di Compressione: 10%, 20%, 30% e altri livelli
Hardware: GPU A100
Basato sul processo SVD-LLM, applicando i moduli di allocazione del rango e decodifica progressiva di FLRC

Risultati Sperimentali

Risultati Principali

Prestazioni nei Compiti di Generazione

Su LLaMA-3-8B-Instruct con tasso di compressione del 20%:

DialogSum ROUGE-L: FLRC 17,35% vs ASVD 0,10% vs SVD-LLM 0,24%
CNN/DM ROUGE-L: FLRC 17,72% vs ASVD 0,54% vs SVD-LLM 6,29%

Prestazioni nei Compiti di Comprensione

Su LLaMA-3-8B con tasso di compressione del 20%:

Perplessità Wikitext2: FLRC 12,53 vs ASVD 3206,80 vs SVD-LLM 14,72
Accuratezza Media Zero-shot: FLRC 43,66% vs ASVD 31,58% vs SVD-LLM 41,63%

Miglioramenti di Efficienza

Tempo di Ricerca: FLRC 3 minuti vs ASVD 147 minuti (accelerazione di 49 volte)
Accelerazione dell'Inferenza: Fino a 2,12 volte di accelerazione negli scenari di offloading

Esperimenti di Ablazione

Su LLaMA-3-8B-Instruct con tasso di compressione del 20% nel compito DialogSum:

Solo SVD-LLM: 0,24% ROUGE-L
SVD-LLM + FLRA: 13,28% ROUGE-L
SVD-LLM + FLRA + PLRD: 17,35% ROUGE-L

I risultati dimostrano che entrambi i componenti contribuiscono significativamente al miglioramento delle prestazioni.

Analisi dei Casi

Attraverso l'analisi dell'importanza si scopre che:

Le differenze di importanza della proiezione tra i diversi strati sono enormi
down_proj di solito ha i punteggi di importanza più elevati
Gli strati successivi sono più sensibili alla compressione rispetto agli strati iniziali

Scoperte Sperimentali

Eterogeneità a Livello di Strato: Esiste una significativa variabilità nella tolleranza alla compressione tra i diversi strati del modello
Sensibilità della Decodifica: I compiti di generazione sono più sensibili al tasso di compressione rispetto ai compiti di comprensione
Effetto di Scala: I vantaggi di FLRC sono ancora più evidenti su modelli più grandi
Universalità: Il metodo rimane efficace su diverse architetture di modelli e precisioni

Lavori Correlati

Principali Direzioni di Ricerca

Tecniche di Compressione del Modello: Include potatura, quantizzazione, distillazione della conoscenza, ecc.
Metodi di Decomposizione a Basso Rango: Tecniche di fattorizzazione di matrici di parametri basate su SVD
Inferenza Dinamica: Regolazione della configurazione del modello in base all'input o alla fase di calcolo

Relazione di questo Articolo con i Lavori Correlati

Rispetto ad ASVD: Propone un algoritmo di allocazione del rango più efficiente, riducendo significativamente il tempo di ricerca
Rispetto a SVD-LLM: Introduce un meccanismo di decodifica dinamica, migliorando significativamente le prestazioni nei compiti di generazione
Rispetto ad altri metodi di allocazione: Il metodo basato su Fisher è più efficiente e accurato rispetto ai metodi basati su Hessian e all'ottimizzazione bayesiana

Vantaggi Comparativi

Vantaggio di Efficienza: Completa l'allocazione del rango in una singola iterazione, evitando i costi temporali dell'ottimizzazione iterativa
Vantaggio di Precisione: L'ottimizzazione fine-grained a livello di proiezione è più precisa rispetto all'ottimizzazione a livello di strato o blocco
Vantaggio di Adattabilità: Il meccanismo di regolazione dinamica si adatta meglio alle caratteristiche dei compiti di generazione

Conclusioni e Discussione

Conclusioni Principali

Efficacia della Compressione Fine-grained: La compressione differenziata a livello di proiezione è significativamente superiore alle strategie di compressione uniforme
Necessità della Decodifica Dinamica: L'aggiustamento progressivo del rango è cruciale per mantenere la qualità della generazione
Universalità del Metodo: FLRC mostra prestazioni eccellenti su diverse scale di modelli e tipi di compiti
Valore Pratico: L'efficienza di ricerca significativamente migliorata rende il metodo adatto al dispiegamento pratico

Limitazioni

Dipendenza dai Dati di Calibrazione: Le prestazioni del metodo sono influenzate dalla scelta del dataset di calibrazione, e dataset diversi possono portare a prestazioni diverse
Overhead dello Pianificatore: L'allocazione dinamica del rango introduce overhead computazionale aggiuntivo, richiedendo ulteriore ottimizzazione ingegneristica
Scenari Vincolati dalla Memoria: L'effetto è migliore in ambienti con memoria limitata, ma i vantaggi potrebbero non essere evidenti in scenari vincolati dal calcolo

Direzioni Future

Ottimizzazione Ingegneristica: Concentrarsi sulla riduzione dell'overhead dell'allocazione dinamica del rango, progettando kernel specializzati
Pianificazione Adattiva: Sviluppare algoritmi di pianificazione più intelligenti, riducendo la dipendenza dai dati di calibrazione
Estensione Multimodale: Estendere il metodo alla compressione di modelli linguistici multimodali di grandi dimensioni

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo a applicare il criterio di informazione Fisher all'allocazione fine-grained del rango negli LLM, proponendo un nuovo paradigma di decodifica dinamica
Esperimenti Completi: Copre molteplici modelli, compiti e tassi di compressione, con esperimenti di ablazione ben progettati
Risultati Significativi: Raggiunge miglioramenti rivoluzionari nei compiti di generazione, risolvendo i punti critici dei metodi esistenti
Alto Valore Pratico: Il tempo di ricerca significativamente ridotto e i buoni effetti di accelerazione hanno valore di dispiegamento pratico
Analisi Approfondita: Fornisce ricchi esperimenti di analisi, inclusa la visualizzazione dell'importanza e l'analisi della sensibilità

Insufficienze

Fondamenti Teorici: Manca l'analisi teorica del perché la misurazione dell'importanza basata su Fisher sia ottimale
Strategia di Pianificazione: La strategia di pianificazione della decodifica progressiva si basa principalmente sull'esperienza, mancando di guida teorica
Ottimizzazione Hardware: I dettagli di implementazione hardware dell'allocazione dinamica del rango non sono sufficientemente dettagliati
Ambito di Confronto: Il confronto principale è con metodi basati su SVD, con confronti limitati con altre tecniche di compressione

Impatto

Contributo Accademico: Fornisce una nuova direzione di ricerca e un percorso tecnico al campo della compressione LLM
Valore Pratico: I significativi miglioramenti di prestazioni e efficienza hanno importante valore di applicazione industriale
Riproducibilità: La descrizione del metodo è chiara, la configurazione sperimentale è dettagliata, con buona riproducibilità
Significato Ispiratore: L'idea di compressione dinamica potrebbe ispirare più ricerche correlate

Scenari Applicabili

Dispiegamento Edge: Particolarmente adatto a dispositivi mobili e server edge con risorse limitate
Scenari Vincolati dalla Memoria: L'effetto è particolarmente evidente quando è necessario il modello offloading
Compiti di Generazione: Ha valore speciale per compiti come il riassunto di testo e la generazione di dialoghi
Modelli di Grandi Dimensioni: I vantaggi sono ancora più evidenti su modelli più grandi

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati, principalmente includendo:

Yuan et al., 2023 - Metodo ASVD
Wang et al., 2024 - Metodo SVD-LLM
Touvron et al., 2023 - Serie di modelli LLaMA
Letteratura correlata su molteplici dataset di benchmark e strumenti di valutazione

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa a problemi chiave nel campo della compressione LLM. Il design del metodo è ragionevole, la verifica sperimentale è completa, i risultati sono significativi e ha importante valore accademico e pratico. Sebbene ci sia spazio per miglioramenti nell'analisi teorica e nell'ottimizzazione hardware, nel complesso rappresenta un contributo importante al campo.