2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.

Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.

academic

FLRC: Compresseur de Rang Faible Fin pour l'Inférence Efficace des LLM

Informations Fondamentales

ID de l'article: 2510.09332
Titre: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
Auteurs: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
Institutions: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
Classification: cs.CL cs.AI
Date de publication: 10 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.09332

Résumé

Bien que les grands modèles de langage aient atteint des performances exceptionnelles, leur nombre massif de paramètres entrave leur déploiement sur des matériels aux ressources limitées. La compression de rang faible peut réduire l'utilisation de la mémoire et les besoins de calcul, mais l'application d'un taux de compression uniforme sur toutes les couches entraîne souvent une baisse significative des performances, et les méthodes existantes fonctionnent mal pendant la phase de décodage. Pour résoudre ces problèmes, cet article propose le Compresseur de Rang Faible Fin (FLRC), qui peut déterminer efficacement l'allocation optimale du rang pour chaque couche et combiner le décodage de rang faible progressif pour maintenir la qualité de la génération de texte. Les expériences complètes sur des benchmarks diversifiés démontrent la supériorité de FLRC, réalisant une amélioration ROUGE-L jusqu'à 17% par rapport aux méthodes de compression de rang faible les plus avancées sur les tâches de résumé.

Contexte de Recherche et Motivation

Définition du Problème

Les problèmes fondamentaux auxquels font face les grands modèles de langage (LLM) sont:

Difficultés de déploiement: Le nombre massif de paramètres et les exigences de calcul élevées rendent le déploiement difficile dans les environnements aux ressources limitées tels que les appareils mobiles et les serveurs périphériques
Efficacité de compression insuffisante: Les méthodes de compression de rang faible existantes adoptent un taux de compression uniforme, ignorant les différences de tolérance à la compression entre les différentes couches
Dégradation des performances de décodage: Les méthodes existantes se concentrent principalement sur la phase de pré-remplissage, avec une baisse significative des performances dans les tâches de décodage multi-tours (comme le résumé de texte)

Motivation de la Recherche

Besoins de déploiement pratique: Avec la popularité des applications LLM, le besoin de déploiement efficace sur les appareils aux ressources limitées devient de plus en plus urgent
Limitations des méthodes existantes: Les stratégies de compression uniforme ne peuvent pas exploiter pleinement l'hétérogénéité de la structure du modèle
Garantie de qualité de décodage: Les tâches de génération de texte exigent une haute qualité de décodage continu, nécessitant des stratégies d'optimisation spécialisées

Contributions Principales

Proposition d'un algorithme d'allocation de rang au niveau des couches basé sur Fisher: Basé sur les mesures d'importance du gradient et du poids, détermine l'allocation optimale du rang pour chaque couche de projection, réduisant le temps de recherche de 49 fois par rapport à la méthode ASVD
Introduction d'un mécanisme de décodage de rang faible progressif: Ajuste dynamiquement l'allocation du rang pendant le processus de décodage, utilisant plus de paramètres pour les tokens précoces et réduisant progressivement par la suite, améliorant le taux de compression tout en maintenant la qualité de génération
Établissement d'un cadre de compression fine: Combine l'allocation de rang au niveau des couches avec le décodage progressif, formant une solution complète de compression LLM
Réalisation d'améliorations significatives des performances: Amélioration du score ROUGE-L jusqu'à 17,35% par rapport aux méthodes existantes sur les tâches de résumé, tout en maintenant des performances excellentes sur les tâches de compréhension

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Un grand modèle de langage pré-entraîné M, taux de compression cible Sortie: Le modèle compressé, réduisant le nombre de paramètres et les frais de calcul tout en préservant la qualité de génération Contraintes: Maximiser les performances du modèle dans le budget de paramètres donné

Architecture du Modèle

1. Allocation de Rang au Niveau des Couches Basée sur Fisher

L'idée centrale de cet algorithme est d'attribuer des rangs différents à chaque couche de projection du modèle, effectuant une compression différenciée basée sur son importance.

Calcul de l'importance: Pour chaque projection p dans la couche l, la mesure d'importance est définie comme:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

où Gl,p est le gradient et Wl,p sont les paramètres de poids.

Stratégie d'allocation du rang:

rl,p = round(αl,p/S × Rbudget)

où S est le score d'importance total et Rbudget est le budget de rang total.

Flux de l'algorithme:

Calcul des gradients de chaque couche de projection à l'aide d'un ensemble de données d'étalonnage
Calcul des scores d'importance basés sur les gradients et les poids
Allocation du budget de rang proportionnellement à l'importance
Génération du plan d'allocation de rang au niveau des couches

2. Décodage de Rang Faible Progressif

Ce mécanisme est basé sur l'observation que dans la génération de texte, les tokens précoces ont un impact plus important sur la cohérence et la qualité globales.

Ajustement dynamique du rang:

rl,p(t) = round(αl,p/S × Rbudget(t))

où Rbudget(t) est le budget de rang pour le t-ième token, satisfaisant une propriété non-croissante.

Stratégie de planification:

Tokens précoces: Utilisation d'un ensemble de paramètres plus large pour assurer la qualité de génération
Tokens tardifs: Réduction progressive de la configuration du rang, améliorant le taux de compression global
Détermination du plan de planification optimal à l'aide d'un ensemble de données d'étalonnage

Points d'Innovation Technique

Application du critère d'information de Fisher: Combine les informations de gradient et de poids pour évaluer l'importance de la projection, plus précis que les méthodes basées uniquement sur l'amplitude du poids ou le gradient
Paradigme de compression dynamique: Dépasse les limitations de la compression statique, ajustant dynamiquement le taux de compression selon les caractéristiques du processus de génération
Optimisation fine: Effectue l'optimisation au niveau de la projection plutôt qu'au niveau de la couche, réalisant une allocation de ressources plus précise
Cadre de bout en bout: Unifie l'allocation de rang et le décodage dynamique dans un seul cadre, optimisant de manière coordonnée

Configuration Expérimentale

Ensembles de Données

Tâches de résumé: DialogSum, CNN/DM
Tâches de compréhension: Wikitext2 (perplexité), 7 tâches zero-shot de LM-Evaluation-Harness
Données d'étalonnage:
- Allocation de rang: 256 séquences (longueur 2048) de l'ensemble d'entraînement Wikitext2
- Planificateur: 500 échantillons de l'ensemble d'entraînement DialogSum

Métriques d'Évaluation

Tâches de génération: ROUGE-L, BERTScore
Tâches de compréhension: Perplexité, précision zero-shot
Métriques d'efficacité: Temps de recherche, vitesse d'inférence

Méthodes de Comparaison

ASVD: Décomposition en valeurs singulières consciente de l'activation
SVD-LLM: Méthode de blanchiment de données consciente de la troncature
Expériences d'ablation: Test des contributions respectives des composants FLRA et PLRD

Détails d'Implémentation

Modèles: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct, etc.
Taux de compression: 10%, 20%, 30% et autres niveaux
Matériel: GPU A100
Basé sur le flux SVD-LLM, application des modules d'allocation de rang et de décodage progressif de FLRC

Résultats Expérimentaux

Résultats Principaux

Performance sur les Tâches de Génération

Sur LLaMA-3-8B-Instruct, avec un taux de compression de 20%:

DialogSum ROUGE-L: FLRC 17,35% vs ASVD 0,10% vs SVD-LLM 0,24%
CNN/DM ROUGE-L: FLRC 17,72% vs ASVD 0,54% vs SVD-LLM 6,29%

Performance sur les Tâches de Compréhension

Sur LLaMA-3-8B, avec un taux de compression de 20%:

Perplexité Wikitext2: FLRC 12,53 vs ASVD 3206,80 vs SVD-LLM 14,72
Précision moyenne zero-shot: FLRC 43,66% vs ASVD 31,58% vs SVD-LLM 41,63%

Améliorations d'Efficacité

Temps de recherche: FLRC 3 minutes vs ASVD 147 minutes (accélération 49x)
Accélération d'inférence: Jusqu'à 2,12x d'accélération dans les scénarios d'offloading

Expériences d'Ablation

Sur LLaMA-3-8B-Instruct, tâche DialogSum avec un taux de compression de 20%:

SVD-LLM uniquement: 0,24% ROUGE-L
SVD-LLM + FLRA: 13,28% ROUGE-L
SVD-LLM + FLRA + PLRD: 17,35% ROUGE-L

Les résultats montrent que les deux composants contribuent significativement à l'amélioration des performances.

Analyse de Cas

L'analyse d'importance révèle:

Les différences d'importance de projection entre les différentes couches sont énormes
down_proj possède généralement les scores d'importance les plus élevés
Les couches tardives sont plus sensibles à la compression que les couches précoces

Découvertes Expérimentales

Différences au niveau des couches: Il existe des différences significatives dans la tolérance à la compression entre les différentes couches du modèle
Sensibilité du décodage: Les tâches de génération sont plus sensibles au taux de compression que les tâches de compréhension
Effet d'échelle: L'avantage de FLRC est plus prononcé sur les modèles plus grands
Universalité: La méthode reste efficace sur différentes architectures de modèles et précisions

Travaux Connexes

Directions de Recherche Principales

Techniques de compression de modèles: Incluant l'élagage, la quantification, la distillation de connaissances, etc.
Méthodes de décomposition de rang faible: Techniques de décomposition matricielle de paramètres basées sur SVD
Inférence dynamique: Ajustement de la configuration du modèle selon l'entrée ou l'étape de calcul

Relation entre cet Article et les Travaux Connexes

Par rapport à ASVD: Propose un algorithme d'allocation de rang plus efficace, réduisant considérablement le temps de recherche
Par rapport à SVD-LLM: Introduit un mécanisme de décodage dynamique, améliorant significativement les performances des tâches de génération
Par rapport à d'autres méthodes d'allocation: La méthode basée sur Fisher est plus efficace et précise que les approches basées sur Hessian et l'optimisation Bayésienne

Avantages Comparatifs

Avantage d'efficacité: Allocation de rang complétée en une seule itération, évitant les frais de temps de l'optimisation itérative
Avantage de précision: L'optimisation fine au niveau de la projection est plus précise que l'optimisation au niveau de la couche ou du bloc
Avantage d'adaptabilité: Le mécanisme d'ajustement dynamique s'adapte mieux aux caractéristiques des tâches de génération

Conclusion et Discussion

Conclusions Principales

Efficacité de la compression fine: La compression différenciée au niveau de la projection surpasse significativement les stratégies de compression uniforme
Nécessité du décodage dynamique: L'ajustement progressif du rang est crucial pour maintenir la qualité de génération
Universalité de la méthode: FLRC fonctionne excellemment sur différentes échelles de modèles et types de tâches
Valeur pratique: L'efficacité de recherche considérablement améliorée rend la méthode applicable au déploiement pratique

Limitations

Dépendance aux données d'étalonnage: Les performances de la méthode sont influencées par le choix de l'ensemble de données d'étalonnage, différents ensembles de données pouvant entraîner des variations de performance
Surcharge du planificateur: L'allocation dynamique du rang introduit une surcharge de calcul supplémentaire, nécessitant une optimisation d'ingénierie supplémentaire
Scénarios limités en mémoire: L'effet est plus prononcé dans les environnements à mémoire limitée, mais l'avantage peut être moins significatif dans les scénarios limités en calcul

Directions Futures

Optimisation d'ingénierie: Se concentrer sur la réduction de la surcharge de l'allocation dynamique du rang, concevoir des noyaux spécialisés
Planification adaptative: Développer des algorithmes de planification plus intelligents, réduisant la dépendance aux données d'étalonnage
Extension multimodale: Étendre la méthode à la compression des grands modèles multimodaux

Évaluation Approfondie

Points Forts

Innovation forte: Première application du critère d'information de Fisher à l'allocation fine du rang pour les LLM, proposant un nouveau paradigme de décodage dynamique
Expériences complètes: Couvrant plusieurs modèles, tâches et taux de compression, avec des expériences d'ablation bien conçues
Résultats significatifs: Réalisant des améliorations révolutionnaires sur les tâches de génération, résolvant les points faibles clés des méthodes existantes
Valeur pratique élevée: Le temps de recherche considérablement réduit et les bons effets d'accélération ont une valeur de déploiement pratique
Analyse approfondie: Fournit des expériences d'analyse riches, incluant la visualisation d'importance, l'analyse de sensibilité, etc.

Insuffisances

Fondements théoriques: Manque d'analyse théorique sur pourquoi la mesure d'importance basée sur Fisher est optimale
Stratégie de planification: La stratégie de planification du décodage progressif est principalement basée sur l'expérience, manquant de guidance théorique
Optimisation matérielle: Les détails d'implémentation matérielle de l'allocation dynamique du rang ne sont pas suffisamment détaillés
Portée de comparaison: Principalement comparé aux méthodes basées sur SVD, avec une comparaison limitée avec d'autres techniques de compression

Impact

Contribution académique: Fournit une nouvelle direction de recherche et un chemin technique pour le domaine de la compression LLM
Valeur pratique: Les améliorations significatives de performance et d'efficacité ont une valeur d'application industrielle importante
Reproductibilité: La description de la méthode est claire, les paramètres expérimentaux détaillés, avec une bonne reproductibilité
Signification inspirante: L'idée de compression dynamique peut inspirer davantage de recherches connexes

Scénarios d'Application

Déploiement périphérique: Particulièrement adapté aux environnements aux ressources limitées comme les appareils mobiles et les serveurs périphériques
Scénarios limités en mémoire: L'effet est particulièrement remarquable dans les situations nécessitant l'offloading du modèle
Tâches de génération: Possède une valeur particulière pour les tâches de résumé de texte, génération de dialogue, etc.
Modèles à grande échelle: L'avantage est plus prononcé sur les modèles plus grands

Références

L'article cite de nombreux travaux connexes, incluant principalement:

Yuan et al., 2023 - Méthode ASVD
Wang et al., 2024 - Méthode SVD-LLM
Touvron et al., 2023 - Série de modèles LLaMA
Littérature connexe sur les ensembles de données de référence et les outils d'évaluation

Évaluation Globale: Ceci est un article de recherche de haute qualité qui propose une solution innovante aux problèmes clés du domaine de la compression LLM. La conception de la méthode est raisonnable, la vérification expérimentale est complète, les résultats sont significatifs, avec une valeur académique et pratique importante. Bien qu'il y ait encore de la place pour l'amélioration dans l'analyse théorique et l'optimisation matérielle, dans l'ensemble, c'est une contribution importante à ce domaine.