2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.
Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
academic

FLRC: Compresseur de Rang Faible Fin pour l'Inférence Efficace des LLM

Informations Fondamentales

  • ID de l'article: 2510.09332
  • Titre: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
  • Auteurs: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
  • Institutions: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
  • Classification: cs.CL cs.AI
  • Date de publication: 10 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.09332

Résumé

Bien que les grands modèles de langage aient atteint des performances exceptionnelles, leur nombre massif de paramètres entrave leur déploiement sur des matériels aux ressources limitées. La compression de rang faible peut réduire l'utilisation de la mémoire et les besoins de calcul, mais l'application d'un taux de compression uniforme sur toutes les couches entraîne souvent une baisse significative des performances, et les méthodes existantes fonctionnent mal pendant la phase de décodage. Pour résoudre ces problèmes, cet article propose le Compresseur de Rang Faible Fin (FLRC), qui peut déterminer efficacement l'allocation optimale du rang pour chaque couche et combiner le décodage de rang faible progressif pour maintenir la qualité de la génération de texte. Les expériences complètes sur des benchmarks diversifiés démontrent la supériorité de FLRC, réalisant une amélioration ROUGE-L jusqu'à 17% par rapport aux méthodes de compression de rang faible les plus avancées sur les tâches de résumé.

Contexte de Recherche et Motivation

Définition du Problème

Les problèmes fondamentaux auxquels font face les grands modèles de langage (LLM) sont:

  1. Difficultés de déploiement: Le nombre massif de paramètres et les exigences de calcul élevées rendent le déploiement difficile dans les environnements aux ressources limitées tels que les appareils mobiles et les serveurs périphériques
  2. Efficacité de compression insuffisante: Les méthodes de compression de rang faible existantes adoptent un taux de compression uniforme, ignorant les différences de tolérance à la compression entre les différentes couches
  3. Dégradation des performances de décodage: Les méthodes existantes se concentrent principalement sur la phase de pré-remplissage, avec une baisse significative des performances dans les tâches de décodage multi-tours (comme le résumé de texte)

Motivation de la Recherche

  1. Besoins de déploiement pratique: Avec la popularité des applications LLM, le besoin de déploiement efficace sur les appareils aux ressources limitées devient de plus en plus urgent
  2. Limitations des méthodes existantes: Les stratégies de compression uniforme ne peuvent pas exploiter pleinement l'hétérogénéité de la structure du modèle
  3. Garantie de qualité de décodage: Les tâches de génération de texte exigent une haute qualité de décodage continu, nécessitant des stratégies d'optimisation spécialisées

Contributions Principales

  1. Proposition d'un algorithme d'allocation de rang au niveau des couches basé sur Fisher: Basé sur les mesures d'importance du gradient et du poids, détermine l'allocation optimale du rang pour chaque couche de projection, réduisant le temps de recherche de 49 fois par rapport à la méthode ASVD
  2. Introduction d'un mécanisme de décodage de rang faible progressif: Ajuste dynamiquement l'allocation du rang pendant le processus de décodage, utilisant plus de paramètres pour les tokens précoces et réduisant progressivement par la suite, améliorant le taux de compression tout en maintenant la qualité de génération
  3. Établissement d'un cadre de compression fine: Combine l'allocation de rang au niveau des couches avec le décodage progressif, formant une solution complète de compression LLM
  4. Réalisation d'améliorations significatives des performances: Amélioration du score ROUGE-L jusqu'à 17,35% par rapport aux méthodes existantes sur les tâches de résumé, tout en maintenant des performances excellentes sur les tâches de compréhension

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Un grand modèle de langage pré-entraîné M, taux de compression cible Sortie: Le modèle compressé, réduisant le nombre de paramètres et les frais de calcul tout en préservant la qualité de génération Contraintes: Maximiser les performances du modèle dans le budget de paramètres donné

Architecture du Modèle

1. Allocation de Rang au Niveau des Couches Basée sur Fisher

L'idée centrale de cet algorithme est d'attribuer des rangs différents à chaque couche de projection du modèle, effectuant une compression différenciée basée sur son importance.

Calcul de l'importance: Pour chaque projection p dans la couche l, la mesure d'importance est définie comme:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

où Gl,p est le gradient et Wl,p sont les paramètres de poids.

Stratégie d'allocation du rang:

rl,p = round(αl,p/S × Rbudget)

où S est le score d'importance total et Rbudget est le budget de rang total.

Flux de l'algorithme:

  1. Calcul des gradients de chaque couche de projection à l'aide d'un ensemble de données d'étalonnage
  2. Calcul des scores d'importance basés sur les gradients et les poids
  3. Allocation du budget de rang proportionnellement à l'importance
  4. Génération du plan d'allocation de rang au niveau des couches

2. Décodage de Rang Faible Progressif

Ce mécanisme est basé sur l'observation que dans la génération de texte, les tokens précoces ont un impact plus important sur la cohérence et la qualité globales.

Ajustement dynamique du rang:

rl,p(t) = round(αl,p/S × Rbudget(t))

où Rbudget(t) est le budget de rang pour le t-ième token, satisfaisant une propriété non-croissante.

Stratégie de planification:

  • Tokens précoces: Utilisation d'un ensemble de paramètres plus large pour assurer la qualité de génération
  • Tokens tardifs: Réduction progressive de la configuration du rang, améliorant le taux de compression global
  • Détermination du plan de planification optimal à l'aide d'un ensemble de données d'étalonnage

Points d'Innovation Technique

  1. Application du critère d'information de Fisher: Combine les informations de gradient et de poids pour évaluer l'importance de la projection, plus précis que les méthodes basées uniquement sur l'amplitude du poids ou le gradient
  2. Paradigme de compression dynamique: Dépasse les limitations de la compression statique, ajustant dynamiquement le taux de compression selon les caractéristiques du processus de génération
  3. Optimisation fine: Effectue l'optimisation au niveau de la projection plutôt qu'au niveau de la couche, réalisant une allocation de ressources plus précise
  4. Cadre de bout en bout: Unifie l'allocation de rang et le décodage dynamique dans un seul cadre, optimisant de manière coordonnée

Configuration Expérimentale

Ensembles de Données

  1. Tâches de résumé: DialogSum, CNN/DM
  2. Tâches de compréhension: Wikitext2 (perplexité), 7 tâches zero-shot de LM-Evaluation-Harness
  3. Données d'étalonnage:
    • Allocation de rang: 256 séquences (longueur 2048) de l'ensemble d'entraînement Wikitext2
    • Planificateur: 500 échantillons de l'ensemble d'entraînement DialogSum

Métriques d'Évaluation

  1. Tâches de génération: ROUGE-L, BERTScore
  2. Tâches de compréhension: Perplexité, précision zero-shot
  3. Métriques d'efficacité: Temps de recherche, vitesse d'inférence

Méthodes de Comparaison

  1. ASVD: Décomposition en valeurs singulières consciente de l'activation
  2. SVD-LLM: Méthode de blanchiment de données consciente de la troncature
  3. Expériences d'ablation: Test des contributions respectives des composants FLRA et PLRD

Détails d'Implémentation

  • Modèles: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct, etc.
  • Taux de compression: 10%, 20%, 30% et autres niveaux
  • Matériel: GPU A100
  • Basé sur le flux SVD-LLM, application des modules d'allocation de rang et de décodage progressif de FLRC

Résultats Expérimentaux

Résultats Principaux

Performance sur les Tâches de Génération

Sur LLaMA-3-8B-Instruct, avec un taux de compression de 20%:

  • DialogSum ROUGE-L: FLRC 17,35% vs ASVD 0,10% vs SVD-LLM 0,24%
  • CNN/DM ROUGE-L: FLRC 17,72% vs ASVD 0,54% vs SVD-LLM 6,29%

Performance sur les Tâches de Compréhension

Sur LLaMA-3-8B, avec un taux de compression de 20%:

  • Perplexité Wikitext2: FLRC 12,53 vs ASVD 3206,80 vs SVD-LLM 14,72
  • Précision moyenne zero-shot: FLRC 43,66% vs ASVD 31,58% vs SVD-LLM 41,63%

Améliorations d'Efficacité

  • Temps de recherche: FLRC 3 minutes vs ASVD 147 minutes (accélération 49x)
  • Accélération d'inférence: Jusqu'à 2,12x d'accélération dans les scénarios d'offloading

Expériences d'Ablation

Sur LLaMA-3-8B-Instruct, tâche DialogSum avec un taux de compression de 20%:

  • SVD-LLM uniquement: 0,24% ROUGE-L
  • SVD-LLM + FLRA: 13,28% ROUGE-L
  • SVD-LLM + FLRA + PLRD: 17,35% ROUGE-L

Les résultats montrent que les deux composants contribuent significativement à l'amélioration des performances.

Analyse de Cas

L'analyse d'importance révèle:

  • Les différences d'importance de projection entre les différentes couches sont énormes
  • down_proj possède généralement les scores d'importance les plus élevés
  • Les couches tardives sont plus sensibles à la compression que les couches précoces

Découvertes Expérimentales

  1. Différences au niveau des couches: Il existe des différences significatives dans la tolérance à la compression entre les différentes couches du modèle
  2. Sensibilité du décodage: Les tâches de génération sont plus sensibles au taux de compression que les tâches de compréhension
  3. Effet d'échelle: L'avantage de FLRC est plus prononcé sur les modèles plus grands
  4. Universalité: La méthode reste efficace sur différentes architectures de modèles et précisions

Travaux Connexes

Directions de Recherche Principales

  1. Techniques de compression de modèles: Incluant l'élagage, la quantification, la distillation de connaissances, etc.
  2. Méthodes de décomposition de rang faible: Techniques de décomposition matricielle de paramètres basées sur SVD
  3. Inférence dynamique: Ajustement de la configuration du modèle selon l'entrée ou l'étape de calcul

Relation entre cet Article et les Travaux Connexes

  1. Par rapport à ASVD: Propose un algorithme d'allocation de rang plus efficace, réduisant considérablement le temps de recherche
  2. Par rapport à SVD-LLM: Introduit un mécanisme de décodage dynamique, améliorant significativement les performances des tâches de génération
  3. Par rapport à d'autres méthodes d'allocation: La méthode basée sur Fisher est plus efficace et précise que les approches basées sur Hessian et l'optimisation Bayésienne

Avantages Comparatifs

  1. Avantage d'efficacité: Allocation de rang complétée en une seule itération, évitant les frais de temps de l'optimisation itérative
  2. Avantage de précision: L'optimisation fine au niveau de la projection est plus précise que l'optimisation au niveau de la couche ou du bloc
  3. Avantage d'adaptabilité: Le mécanisme d'ajustement dynamique s'adapte mieux aux caractéristiques des tâches de génération

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de la compression fine: La compression différenciée au niveau de la projection surpasse significativement les stratégies de compression uniforme
  2. Nécessité du décodage dynamique: L'ajustement progressif du rang est crucial pour maintenir la qualité de génération
  3. Universalité de la méthode: FLRC fonctionne excellemment sur différentes échelles de modèles et types de tâches
  4. Valeur pratique: L'efficacité de recherche considérablement améliorée rend la méthode applicable au déploiement pratique

Limitations

  1. Dépendance aux données d'étalonnage: Les performances de la méthode sont influencées par le choix de l'ensemble de données d'étalonnage, différents ensembles de données pouvant entraîner des variations de performance
  2. Surcharge du planificateur: L'allocation dynamique du rang introduit une surcharge de calcul supplémentaire, nécessitant une optimisation d'ingénierie supplémentaire
  3. Scénarios limités en mémoire: L'effet est plus prononcé dans les environnements à mémoire limitée, mais l'avantage peut être moins significatif dans les scénarios limités en calcul

Directions Futures

  1. Optimisation d'ingénierie: Se concentrer sur la réduction de la surcharge de l'allocation dynamique du rang, concevoir des noyaux spécialisés
  2. Planification adaptative: Développer des algorithmes de planification plus intelligents, réduisant la dépendance aux données d'étalonnage
  3. Extension multimodale: Étendre la méthode à la compression des grands modèles multimodaux

Évaluation Approfondie

Points Forts

  1. Innovation forte: Première application du critère d'information de Fisher à l'allocation fine du rang pour les LLM, proposant un nouveau paradigme de décodage dynamique
  2. Expériences complètes: Couvrant plusieurs modèles, tâches et taux de compression, avec des expériences d'ablation bien conçues
  3. Résultats significatifs: Réalisant des améliorations révolutionnaires sur les tâches de génération, résolvant les points faibles clés des méthodes existantes
  4. Valeur pratique élevée: Le temps de recherche considérablement réduit et les bons effets d'accélération ont une valeur de déploiement pratique
  5. Analyse approfondie: Fournit des expériences d'analyse riches, incluant la visualisation d'importance, l'analyse de sensibilité, etc.

Insuffisances

  1. Fondements théoriques: Manque d'analyse théorique sur pourquoi la mesure d'importance basée sur Fisher est optimale
  2. Stratégie de planification: La stratégie de planification du décodage progressif est principalement basée sur l'expérience, manquant de guidance théorique
  3. Optimisation matérielle: Les détails d'implémentation matérielle de l'allocation dynamique du rang ne sont pas suffisamment détaillés
  4. Portée de comparaison: Principalement comparé aux méthodes basées sur SVD, avec une comparaison limitée avec d'autres techniques de compression

Impact

  1. Contribution académique: Fournit une nouvelle direction de recherche et un chemin technique pour le domaine de la compression LLM
  2. Valeur pratique: Les améliorations significatives de performance et d'efficacité ont une valeur d'application industrielle importante
  3. Reproductibilité: La description de la méthode est claire, les paramètres expérimentaux détaillés, avec une bonne reproductibilité
  4. Signification inspirante: L'idée de compression dynamique peut inspirer davantage de recherches connexes

Scénarios d'Application

  1. Déploiement périphérique: Particulièrement adapté aux environnements aux ressources limitées comme les appareils mobiles et les serveurs périphériques
  2. Scénarios limités en mémoire: L'effet est particulièrement remarquable dans les situations nécessitant l'offloading du modèle
  3. Tâches de génération: Possède une valeur particulière pour les tâches de résumé de texte, génération de dialogue, etc.
  4. Modèles à grande échelle: L'avantage est plus prononcé sur les modèles plus grands

Références

L'article cite de nombreux travaux connexes, incluant principalement:

  1. Yuan et al., 2023 - Méthode ASVD
  2. Wang et al., 2024 - Méthode SVD-LLM
  3. Touvron et al., 2023 - Série de modèles LLaMA
  4. Littérature connexe sur les ensembles de données de référence et les outils d'évaluation

Évaluation Globale: Ceci est un article de recherche de haute qualité qui propose une solution innovante aux problèmes clés du domaine de la compression LLM. La conception de la méthode est raisonnable, la vérification expérimentale est complète, les résultats sont significatifs, avec une valeur académique et pratique importante. Bien qu'il y ait encore de la place pour l'amélioration dans l'analyse théorique et l'optimisation matérielle, dans l'ensemble, c'est une contribution importante à ce domaine.