2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.
Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
academic

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Informazioni Fondamentali

  • ID Articolo: 2510.09332
  • Titolo: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
  • Autori: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
  • Istituzioni: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione: 10 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.09332

Riassunto

Sebbene i modelli linguistici di grandi dimensioni abbiano raggiunto prestazioni eccezionali, l'enorme quantità di parametri ostacola il loro dispiegamento su hardware con risorse limitate. La compressione a basso rango può ridurre l'utilizzo della memoria e i requisiti computazionali, tuttavia l'applicazione di un rapporto di compressione uniforme su tutti gli strati spesso comporta una significativa degradazione delle prestazioni, e i metodi esistenti mostrano prestazioni scadenti durante la fase di decodifica. Per affrontare questi problemi, questo articolo propone il Fine-grained Low-Rank Compressor (FLRC), che può determinare efficientemente l'allocazione ottimale del rango per ogni strato e combinare la decodifica a basso rango progressiva per mantenere la qualità della generazione di testo. Gli esperimenti completi su diversi benchmark dimostrano la superiorità di FLRC, raggiungendo un miglioramento ROUGE-L fino al 17% rispetto ai metodi di compressione a basso rango all'avanguardia nei compiti di riassunto.

Contesto di Ricerca e Motivazione

Definizione del Problema

I problemi fondamentali affrontati dai modelli linguistici di grandi dimensioni (LLM) sono:

  1. Difficoltà di Dispiegamento: L'enorme quantità di parametri e gli elevati requisiti computazionali rendono difficile il dispiegamento in ambienti con risorse limitate come dispositivi mobili e server edge
  2. Compressione Inefficace: I metodi di compressione a basso rango esistenti utilizzano un rapporto di compressione uniforme, ignorando le differenze nella tolleranza alla compressione tra i diversi strati
  3. Degradazione delle Prestazioni di Decodifica: I metodi esistenti si concentrano principalmente sulla fase di pre-riempimento, mostrando una significativa degradazione delle prestazioni nei compiti di decodifica multi-turno (come il riassunto di testo)

Motivazione della Ricerca

  1. Esigenze di Dispiegamento Pratico: Con la diffusione delle applicazioni LLM, la necessità di dispiegamento efficiente su dispositivi con risorse limitate diventa sempre più urgente
  2. Limitazioni dei Metodi Esistenti: Le strategie di compressione uniforme non riescono a sfruttare pienamente l'eterogeneità della struttura del modello
  3. Garanzia della Qualità di Decodifica: I compiti di generazione di testo richiedono un'elevata qualità di decodifica continua, necessitando di strategie di ottimizzazione specializzate

Contributi Principali

  1. Propone un Algoritmo di Allocazione del Rango a Livello di Strato Basato su Fisher: Basato sulla misurazione dell'importanza del gradiente e del peso, determina l'allocazione ottimale del rango per ogni strato di proiezione, riducendo il tempo di ricerca di 49 volte rispetto al metodo ASVD
  2. Introduce un Meccanismo di Decodifica a Basso Rango Progressiva: Regola dinamicamente l'allocazione del rango durante il processo di decodifica, utilizzando più parametri per i token iniziali e riducendoli gradualmente in seguito, aumentando il tasso di compressione mantenendo la qualità della generazione
  3. Stabilisce un Framework di Compressione Fine-grained: Combina l'allocazione del rango a livello di strato con la decodifica progressiva, formando una soluzione completa di compressione LLM
  4. Realizza Miglioramenti Significativi delle Prestazioni: Nei compiti di riassunto, il punteggio ROUGE-L migliora fino al 17,35% rispetto ai metodi esistenti, mantenendo al contempo prestazioni eccellenti nei compiti di comprensione

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Modello linguistico di grandi dimensioni pre-addestrato M, rapporto di compressione target Output: Modello compresso che riduce la quantità di parametri e il carico computazionale mantenendo la qualità della generazione Vincoli: Massimizzare le prestazioni del modello entro un budget di parametri specificato

Architettura del Modello

1. Allocazione del Rango a Livello di Strato Basata su Fisher

L'idea centrale di questo algoritmo è assegnare ranghi diversi a ogni strato di proiezione nel modello, basandosi su una compressione differenziata secondo la loro importanza.

Calcolo dell'Importanza: Per ogni proiezione p nello strato l, la misura dell'importanza è definita come:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

dove Gl,p è il gradiente e Wl,p sono i parametri di peso.

Strategia di Allocazione del Rango:

rl,p = round(αl,p/S × Rbudget)

dove S è il punteggio di importanza totale e Rbudget è il budget di rango totale.

Flusso dell'Algoritmo:

  1. Calcolare i gradienti di ogni strato di proiezione utilizzando il dataset di calibrazione
  2. Calcolare i punteggi di importanza basati su gradienti e pesi
  3. Allocare il budget di rango in proporzione all'importanza
  4. Generare lo schema di allocazione del rango a livello di strato

2. Decodifica a Basso Rango Progressiva

Questo meccanismo si basa sull'osservazione che nella generazione di testo, i token iniziali hanno un impatto maggiore sulla coerenza complessiva e sulla qualità.

Regolazione Dinamica del Rango:

rl,p(t) = round(αl,p/S × Rbudget(t))

dove Rbudget(t) è il budget di rango per il t-esimo token, soddisfacendo la proprietà non-crescente.

Strategia di Pianificazione:

  • Token iniziali: Utilizzano un insieme di parametri più ampio per garantire la qualità della generazione
  • Token successivi: Riducono gradualmente la configurazione del rango, migliorando il tasso di compressione complessivo
  • Determinare lo schema di pianificazione ottimale attraverso il dataset di calibrazione

Punti di Innovazione Tecnica

  1. Applicazione del Criterio di Informazione Fisher: Combina informazioni di gradiente e peso per valutare l'importanza della proiezione, più accurato rispetto ai metodi basati solo su ampiezza del peso o gradiente
  2. Paradigma di Compressione Dinamica: Supera i limiti della compressione statica, regolando dinamicamente il tasso di compressione in base alle caratteristiche del processo di generazione
  3. Ottimizzazione Fine-grained: Esegue l'ottimizzazione a livello di proiezione piuttosto che a livello di strato, realizzando un'allocazione di risorse più precisa
  4. Framework End-to-End: Unifica l'allocazione del rango e la decodifica dinamica in un unico framework, ottimizzando in modo coordinato

Configurazione Sperimentale

Dataset

  1. Compiti di Riassunto: DialogSum, CNN/DM
  2. Compiti di Comprensione: Wikitext2 (perplessità), 7 compiti zero-shot da LM-Evaluation-Harness
  3. Dati di Calibrazione:
    • Allocazione del rango: 256 sequenze dal dataset di addestramento Wikitext2 (lunghezza 2048)
    • Pianificatore: 500 campioni dal dataset di addestramento DialogSum

Metriche di Valutazione

  1. Compiti di Generazione: ROUGE-L, BERTScore
  2. Compiti di Comprensione: Perplessità, accuratezza zero-shot
  3. Metriche di Efficienza: Tempo di ricerca, velocità di inferenza

Metodi di Confronto

  1. ASVD: Decomposizione ai valori singolari consapevole dell'attivazione
  2. SVD-LLM: Metodo di sbiancamento dati consapevole del troncamento
  3. Esperimenti di Ablazione: Testare separatamente i contributi dei componenti FLRA e PLRD

Dettagli di Implementazione

  • Modelli: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct, ecc.
  • Tassi di Compressione: 10%, 20%, 30% e altri livelli
  • Hardware: GPU A100
  • Basato sul processo SVD-LLM, applicando i moduli di allocazione del rango e decodifica progressiva di FLRC

Risultati Sperimentali

Risultati Principali

Prestazioni nei Compiti di Generazione

Su LLaMA-3-8B-Instruct con tasso di compressione del 20%:

  • DialogSum ROUGE-L: FLRC 17,35% vs ASVD 0,10% vs SVD-LLM 0,24%
  • CNN/DM ROUGE-L: FLRC 17,72% vs ASVD 0,54% vs SVD-LLM 6,29%

Prestazioni nei Compiti di Comprensione

Su LLaMA-3-8B con tasso di compressione del 20%:

  • Perplessità Wikitext2: FLRC 12,53 vs ASVD 3206,80 vs SVD-LLM 14,72
  • Accuratezza Media Zero-shot: FLRC 43,66% vs ASVD 31,58% vs SVD-LLM 41,63%

Miglioramenti di Efficienza

  • Tempo di Ricerca: FLRC 3 minuti vs ASVD 147 minuti (accelerazione di 49 volte)
  • Accelerazione dell'Inferenza: Fino a 2,12 volte di accelerazione negli scenari di offloading

Esperimenti di Ablazione

Su LLaMA-3-8B-Instruct con tasso di compressione del 20% nel compito DialogSum:

  • Solo SVD-LLM: 0,24% ROUGE-L
  • SVD-LLM + FLRA: 13,28% ROUGE-L
  • SVD-LLM + FLRA + PLRD: 17,35% ROUGE-L

I risultati dimostrano che entrambi i componenti contribuiscono significativamente al miglioramento delle prestazioni.

Analisi dei Casi

Attraverso l'analisi dell'importanza si scopre che:

  • Le differenze di importanza della proiezione tra i diversi strati sono enormi
  • down_proj di solito ha i punteggi di importanza più elevati
  • Gli strati successivi sono più sensibili alla compressione rispetto agli strati iniziali

Scoperte Sperimentali

  1. Eterogeneità a Livello di Strato: Esiste una significativa variabilità nella tolleranza alla compressione tra i diversi strati del modello
  2. Sensibilità della Decodifica: I compiti di generazione sono più sensibili al tasso di compressione rispetto ai compiti di comprensione
  3. Effetto di Scala: I vantaggi di FLRC sono ancora più evidenti su modelli più grandi
  4. Universalità: Il metodo rimane efficace su diverse architetture di modelli e precisioni

Lavori Correlati

Principali Direzioni di Ricerca

  1. Tecniche di Compressione del Modello: Include potatura, quantizzazione, distillazione della conoscenza, ecc.
  2. Metodi di Decomposizione a Basso Rango: Tecniche di fattorizzazione di matrici di parametri basate su SVD
  3. Inferenza Dinamica: Regolazione della configurazione del modello in base all'input o alla fase di calcolo

Relazione di questo Articolo con i Lavori Correlati

  1. Rispetto ad ASVD: Propone un algoritmo di allocazione del rango più efficiente, riducendo significativamente il tempo di ricerca
  2. Rispetto a SVD-LLM: Introduce un meccanismo di decodifica dinamica, migliorando significativamente le prestazioni nei compiti di generazione
  3. Rispetto ad altri metodi di allocazione: Il metodo basato su Fisher è più efficiente e accurato rispetto ai metodi basati su Hessian e all'ottimizzazione bayesiana

Vantaggi Comparativi

  1. Vantaggio di Efficienza: Completa l'allocazione del rango in una singola iterazione, evitando i costi temporali dell'ottimizzazione iterativa
  2. Vantaggio di Precisione: L'ottimizzazione fine-grained a livello di proiezione è più precisa rispetto all'ottimizzazione a livello di strato o blocco
  3. Vantaggio di Adattabilità: Il meccanismo di regolazione dinamica si adatta meglio alle caratteristiche dei compiti di generazione

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia della Compressione Fine-grained: La compressione differenziata a livello di proiezione è significativamente superiore alle strategie di compressione uniforme
  2. Necessità della Decodifica Dinamica: L'aggiustamento progressivo del rango è cruciale per mantenere la qualità della generazione
  3. Universalità del Metodo: FLRC mostra prestazioni eccellenti su diverse scale di modelli e tipi di compiti
  4. Valore Pratico: L'efficienza di ricerca significativamente migliorata rende il metodo adatto al dispiegamento pratico

Limitazioni

  1. Dipendenza dai Dati di Calibrazione: Le prestazioni del metodo sono influenzate dalla scelta del dataset di calibrazione, e dataset diversi possono portare a prestazioni diverse
  2. Overhead dello Pianificatore: L'allocazione dinamica del rango introduce overhead computazionale aggiuntivo, richiedendo ulteriore ottimizzazione ingegneristica
  3. Scenari Vincolati dalla Memoria: L'effetto è migliore in ambienti con memoria limitata, ma i vantaggi potrebbero non essere evidenti in scenari vincolati dal calcolo

Direzioni Future

  1. Ottimizzazione Ingegneristica: Concentrarsi sulla riduzione dell'overhead dell'allocazione dinamica del rango, progettando kernel specializzati
  2. Pianificazione Adattiva: Sviluppare algoritmi di pianificazione più intelligenti, riducendo la dipendenza dai dati di calibrazione
  3. Estensione Multimodale: Estendere il metodo alla compressione di modelli linguistici multimodali di grandi dimensioni

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo a applicare il criterio di informazione Fisher all'allocazione fine-grained del rango negli LLM, proponendo un nuovo paradigma di decodifica dinamica
  2. Esperimenti Completi: Copre molteplici modelli, compiti e tassi di compressione, con esperimenti di ablazione ben progettati
  3. Risultati Significativi: Raggiunge miglioramenti rivoluzionari nei compiti di generazione, risolvendo i punti critici dei metodi esistenti
  4. Alto Valore Pratico: Il tempo di ricerca significativamente ridotto e i buoni effetti di accelerazione hanno valore di dispiegamento pratico
  5. Analisi Approfondita: Fornisce ricchi esperimenti di analisi, inclusa la visualizzazione dell'importanza e l'analisi della sensibilità

Insufficienze

  1. Fondamenti Teorici: Manca l'analisi teorica del perché la misurazione dell'importanza basata su Fisher sia ottimale
  2. Strategia di Pianificazione: La strategia di pianificazione della decodifica progressiva si basa principalmente sull'esperienza, mancando di guida teorica
  3. Ottimizzazione Hardware: I dettagli di implementazione hardware dell'allocazione dinamica del rango non sono sufficientemente dettagliati
  4. Ambito di Confronto: Il confronto principale è con metodi basati su SVD, con confronti limitati con altre tecniche di compressione

Impatto

  1. Contributo Accademico: Fornisce una nuova direzione di ricerca e un percorso tecnico al campo della compressione LLM
  2. Valore Pratico: I significativi miglioramenti di prestazioni e efficienza hanno importante valore di applicazione industriale
  3. Riproducibilità: La descrizione del metodo è chiara, la configurazione sperimentale è dettagliata, con buona riproducibilità
  4. Significato Ispiratore: L'idea di compressione dinamica potrebbe ispirare più ricerche correlate

Scenari Applicabili

  1. Dispiegamento Edge: Particolarmente adatto a dispositivi mobili e server edge con risorse limitate
  2. Scenari Vincolati dalla Memoria: L'effetto è particolarmente evidente quando è necessario il modello offloading
  3. Compiti di Generazione: Ha valore speciale per compiti come il riassunto di testo e la generazione di dialoghi
  4. Modelli di Grandi Dimensioni: I vantaggi sono ancora più evidenti su modelli più grandi

Riferimenti Bibliografici

L'articolo cita numerosi lavori correlati, principalmente includendo:

  1. Yuan et al., 2023 - Metodo ASVD
  2. Wang et al., 2024 - Metodo SVD-LLM
  3. Touvron et al., 2023 - Serie di modelli LLaMA
  4. Letteratura correlata su molteplici dataset di benchmark e strumenti di valutazione

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che propone una soluzione innovativa a problemi chiave nel campo della compressione LLM. Il design del metodo è ragionevole, la verifica sperimentale è completa, i risultati sono significativi e ha importante valore accademico e pratico. Sebbene ci sia spazio per miglioramenti nell'analisi teorica e nell'ottimizzazione hardware, nel complesso rappresenta un contributo importante al campo.