2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.
Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
academic

FLRC: Compresor de Rango Bajo de Grano Fino para Inferencia Eficiente de LLM

Información Básica

  • ID del Artículo: 2510.09332
  • Título: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
  • Autores: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
  • Instituciones: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09332

Resumen

Aunque los modelos de lenguaje grande han logrado un desempeño excepcional, su enorme cantidad de parámetros obstaculiza su implementación en hardware con recursos limitados. La compresión de rango bajo puede reducir el uso de memoria y los requisitos computacionales, pero la aplicación de una relación de compresión uniforme en todas las capas a menudo resulta en una disminución significativa del desempeño, y los métodos existentes funcionan mal durante la fase de decodificación. Para abordar estos problemas, este artículo propone el Compresor de Rango Bajo de Grano Fino (FLRC), que puede determinar de manera eficiente la asignación óptima de rango para cada capa, combinado con decodificación de rango bajo progresiva para mantener la calidad de la generación de texto. Los experimentos exhaustivos en múltiples puntos de referencia demuestran la superioridad de FLRC, logrando una mejora de ROUGE-L de hasta el 17% en tareas de resumen en comparación con los métodos de compresión de rango bajo más avanzados.

Antecedentes de Investigación y Motivación

Definición del Problema

Los problemas centrales que enfrentan los modelos de lenguaje grande (LLM) son:

  1. Dificultad de Implementación: La enorme cantidad de parámetros y los altos requisitos computacionales hacen que sea difícil implementar en entornos con recursos limitados como dispositivos móviles y servidores periféricos
  2. Compresión Deficiente: Los métodos de compresión de rango bajo existentes utilizan una relación de compresión uniforme, ignorando las diferencias en la tolerancia a la compresión entre capas diferentes
  3. Disminución del Desempeño en Decodificación: Los métodos existentes se centran principalmente en la fase de prefill, con un desempeño significativamente reducido en tareas de decodificación multiturno (como resumen de texto)

Motivación de la Investigación

  1. Necesidad Práctica de Implementación: Con la popularización de las aplicaciones de LLM, la necesidad de implementación eficiente en dispositivos con recursos limitados es cada vez más urgente
  2. Limitaciones de Métodos Existentes: Las estrategias de compresión uniforme no pueden aprovechar plenamente la heterogeneidad de la estructura del modelo
  3. Garantía de Calidad de Decodificación: Las tareas de generación de texto requieren alta calidad de decodificación continua, necesitando estrategias de optimización especializadas

Contribuciones Principales

  1. Propone un Algoritmo de Asignación de Rango a Nivel de Capa Basado en Fisher: Basado en medidas de importancia de gradientes y pesos, determina la asignación óptima de rango para cada capa de proyección, reduciendo el tiempo de búsqueda en 49 veces en comparación con el método ASVD
  2. Introduce un Mecanismo de Decodificación de Rango Bajo Progresivo: Ajusta dinámicamente la asignación de rango durante el proceso de decodificación, utilizando más parámetros para tokens tempranos y reduciéndolos gradualmente para tokens posteriores, mejorando la tasa de compresión mientras se mantiene la calidad de generación
  3. Establece un Marco de Compresión de Grano Fino: Combina la asignación de rango a nivel de capa con decodificación progresiva, formando una solución completa de compresión de LLM
  4. Logra Mejoras Significativas de Desempeño: En tareas de resumen, la puntuación ROUGE-L mejora hasta un 17.35% en comparación con métodos existentes, mientras mantiene un desempeño excelente en tareas de comprensión

Explicación Detallada del Método

Definición de la Tarea

Entrada: Modelo de lenguaje grande preentrenado M, relación de compresión objetivo Salida: Modelo comprimido que reduce la cantidad de parámetros y la sobrecarga computacional mientras mantiene la calidad de generación Restricciones: Maximizar el desempeño del modelo dentro del presupuesto de parámetros dado

Arquitectura del Modelo

1. Asignación de Rango a Nivel de Capa Basada en Fisher

La idea central de este algoritmo es asignar diferentes rangos a cada capa de proyección en el modelo, realizando compresión diferenciada basada en su importancia.

Cálculo de Importancia: Para cada proyección p en la capa l, la medida de importancia se define como:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

donde Gl,p es el gradiente y Wl,p son los parámetros de peso.

Estrategia de Asignación de Rango:

rl,p = round(αl,p/S × Rbudget)

donde S es la puntuación de importancia total y Rbudget es el presupuesto de rango total.

Flujo del Algoritmo:

  1. Calcular gradientes de cada capa de proyección utilizando un conjunto de datos de calibración
  2. Calcular puntuaciones de importancia basadas en gradientes y pesos
  3. Asignar presupuesto de rango proporcionalmente según importancia
  4. Generar esquema de asignación de rango a nivel de capa

2. Decodificación de Rango Bajo Progresiva

Este mecanismo se basa en la observación de que en la generación de texto, los tokens tempranos tienen un mayor impacto en la coherencia y calidad general.

Ajuste Dinámico de Rango:

rl,p(t) = round(αl,p/S × Rbudget(t))

donde Rbudget(t) es el presupuesto de rango para el token t, satisfaciendo la propiedad no creciente.

Estrategia de Programación:

  • Tokens tempranos: Utilizar un conjunto de parámetros más grande para garantizar la calidad de generación
  • Tokens posteriores: Reducir gradualmente la configuración de rango para mejorar la tasa de compresión general
  • Determinar el esquema de programación óptimo mediante un conjunto de datos de calibración

Puntos de Innovación Técnica

  1. Aplicación del Criterio de Información de Fisher: Combina información de gradientes y pesos para evaluar la importancia de proyecciones, más preciso que métodos basados únicamente en amplitud de pesos o gradientes
  2. Paradigma de Compresión Dinámica: Rompe las limitaciones de la compresión estática, ajustando dinámicamente la tasa de compresión según las características del proceso de generación
  3. Optimización de Grano Fino: Realiza optimización a nivel de proyección en lugar de a nivel de capa, logrando una asignación de recursos más precisa
  4. Marco Integral: Unifica la asignación de rango y decodificación dinámica en un marco único, optimizando de manera coordinada

Configuración Experimental

Conjuntos de Datos

  1. Tareas de Resumen: DialogSum, CNN/DM
  2. Tareas de Comprensión: Wikitext2 (perplejidad), 7 tareas de aprendizaje cero en LM-Evaluation-Harness
  3. Datos de Calibración:
    • Asignación de rango: 256 secuencias del conjunto de entrenamiento de Wikitext2 (longitud 2048)
    • Programador: 500 muestras del conjunto de entrenamiento de DialogSum

Métricas de Evaluación

  1. Tareas de Generación: ROUGE-L, BERTScore
  2. Tareas de Comprensión: Perplejidad, precisión de aprendizaje cero
  3. Métricas de Eficiencia: Tiempo de búsqueda, velocidad de inferencia

Métodos de Comparación

  1. ASVD: Descomposición de valores singulares consciente de activación
  2. SVD-LLM: Método de blanqueamiento de datos consciente de truncamiento
  3. Experimentos de Ablación: Pruebas de contribución de componentes FLRA y PLRD por separado

Detalles de Implementación

  • Modelos: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct, etc.
  • Tasas de Compresión: 10%, 20%, 30% y otros niveles
  • Hardware: GPU A100
  • Basado en el flujo de SVD-LLM, aplicando módulos de asignación de rango y decodificación progresiva de FLRC

Resultados Experimentales

Resultados Principales

Desempeño en Tareas de Generación

En LLaMA-3-8B-Instruct, con tasa de compresión del 20%:

  • DialogSum ROUGE-L: FLRC 17.35% vs ASVD 0.10% vs SVD-LLM 0.24%
  • CNN/DM ROUGE-L: FLRC 17.72% vs ASVD 0.54% vs SVD-LLM 6.29%

Desempeño en Tareas de Comprensión

En LLaMA-3-8B, con tasa de compresión del 20%:

  • Perplejidad de Wikitext2: FLRC 12.53 vs ASVD 3206.80 vs SVD-LLM 14.72
  • Precisión Promedio de Aprendizaje Cero: FLRC 43.66% vs ASVD 31.58% vs SVD-LLM 41.63%

Mejoras de Eficiencia

  • Tiempo de Búsqueda: FLRC 3 minutos vs ASVD 147 minutos (aceleración de 49 veces)
  • Aceleración de Inferencia: Hasta 2.12 veces de aceleración en escenarios de offloading

Experimentos de Ablación

En LLaMA-3-8B-Instruct, tarea de DialogSum con tasa de compresión del 20%:

  • Solo SVD-LLM: 0.24% ROUGE-L
  • SVD-LLM + FLRA: 13.28% ROUGE-L
  • SVD-LLM + FLRA + PLRD: 17.35% ROUGE-L

Los resultados demuestran que ambos componentes contribuyen significativamente a la mejora del desempeño.

Análisis de Casos

Mediante análisis de importancia se descubre:

  • Existen diferencias enormes en la importancia de proyecciones entre capas diferentes
  • down_proj generalmente tiene las puntuaciones de importancia más altas
  • Las capas posteriores son más sensibles a la compresión que las capas anteriores

Hallazgos Experimentales

  1. Heterogeneidad a Nivel de Capa: Existe una diferencia significativa en la tolerancia a la compresión entre capas diferentes del modelo
  2. Sensibilidad de Decodificación: Las tareas de generación son más sensibles a la tasa de compresión que las tareas de comprensión
  3. Efecto de Escala: La ventaja de FLRC es más evidente en modelos más grandes
  4. Universalidad: El método mantiene su efectividad en diferentes arquitecturas de modelos y precisiones

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Técnicas de Compresión de Modelos: Incluyendo poda, cuantificación, destilación de conocimiento, etc.
  2. Métodos de Descomposición de Rango Bajo: Técnicas de descomposición de matrices de parámetros basadas en SVD
  3. Inferencia Dinámica: Ajuste de configuración del modelo según entrada o etapa de cálculo

Relación de Este Artículo con Trabajo Relacionado

  1. Comparado con ASVD: Propone un algoritmo de asignación de rango más eficiente, reduciendo significativamente el tiempo de búsqueda
  2. Comparado con SVD-LLM: Introduce un mecanismo de decodificación dinámica, mejorando significativamente el desempeño en tareas de generación
  3. Comparado con Otros Métodos de Asignación: El método basado en Fisher es más eficiente y preciso que métodos basados en Hessian y optimización Bayesiana

Ventajas Comparativas

  1. Ventaja de Eficiencia: Completa la asignación de rango en una sola iteración, evitando la sobrecarga de tiempo de optimización iterativa
  2. Ventaja de Precisión: La optimización de grano fino a nivel de proyección es más precisa que la optimización a nivel de capa o bloque
  3. Ventaja de Adaptabilidad: El mecanismo de ajuste dinámico se adapta mejor a las características de tareas de generación

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad de Compresión de Grano Fino: La compresión diferenciada a nivel de proyección es significativamente superior a las estrategias de compresión uniforme
  2. Necesidad de Decodificación Dinámica: El ajuste de rango progresivo es crucial para mantener la calidad de generación
  3. Universalidad del Método: FLRC demuestra un desempeño excelente en diferentes escalas de modelos y tipos de tareas
  4. Valor Práctico: La eficiencia de búsqueda significativamente mejorada hace que el método sea valioso para implementación práctica

Limitaciones

  1. Dependencia de Datos de Calibración: El desempeño del método se ve afectado por la selección del conjunto de datos de calibración, diferentes conjuntos de datos pueden resultar en variaciones de desempeño
  2. Sobrecarga del Programador: La asignación de rango dinámica introduce sobrecarga computacional adicional, requiriendo optimización de ingeniería adicional
  3. Escenarios Limitados por Memoria: El efecto es mejor en entornos con memoria limitada, pero la ventaja puede no ser evidente en escenarios limitados por cálculo

Direcciones Futuras

  1. Optimización de Ingeniería: Enfocarse en reducir la sobrecarga de asignación de rango dinámica, diseñando kernels especializados
  2. Programación Adaptativa: Desarrollar algoritmos de programación más inteligentes, reduciendo la dependencia de datos de calibración
  3. Extensión Multimodal: Extender el método a la compresión de modelos de lenguaje grandes multimodales

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera aplicación del criterio de información de Fisher a la asignación de rango de grano fino en LLM, proponiendo un nuevo paradigma de decodificación dinámica
  2. Experimentos Exhaustivos: Cubre múltiples modelos, tareas y tasas de compresión, con diseño razonable de experimentos de ablación
  3. Resultados Significativos: Logra mejoras revolucionarias en tareas de generación, resolviendo puntos débiles clave de métodos existentes
  4. Valor Práctico Alto: El tiempo de búsqueda significativamente reducido y el buen efecto de aceleración tienen valor importante para implementación práctica
  5. Análisis Profundo: Proporciona experimentos de análisis ricos, incluyendo visualización de importancia, análisis de sensibilidad, etc.

Insuficiencias

  1. Fundamento Teórico: Carece de análisis teórico sobre por qué la medida de importancia basada en Fisher es óptima
  2. Estrategia de Programación: La estrategia de programación de decodificación progresiva se basa principalmente en experiencia, careciendo de orientación teórica
  3. Optimización de Hardware: Los detalles de implementación de hardware para asignación de rango dinámica no son suficientemente detallados
  4. Rango de Comparación: Principalmente compara con métodos basados en SVD, con comparación limitada con otras técnicas de compresión

Impacto

  1. Contribución Académica: Proporciona nuevas direcciones de investigación y caminos técnicos para el campo de compresión de LLM
  2. Valor Práctico: Las mejoras significativas de desempeño y eficiencia tienen importante valor de aplicación industrial
  3. Reproducibilidad: La descripción del método es clara, la configuración experimental es detallada, con buena reproducibilidad
  4. Significado Inspirador: La idea de compresión dinámica puede inspirar más investigaciones relacionadas

Escenarios Aplicables

  1. Implementación Periférica: Particularmente adecuado para dispositivos móviles y servidores periféricos con recursos limitados
  2. Escenarios Limitados por Memoria: El efecto es especialmente destacado cuando se requiere offloading de modelo
  3. Tareas de Generación: Tiene valor especial para tareas como resumen de texto y generación de diálogos
  4. Modelos Grandes: Las ventajas son más evidentes en modelos más grandes

Referencias

El artículo cita abundante trabajo relacionado, incluyendo principalmente:

  1. Yuan et al., 2023 - Método ASVD
  2. Wang et al., 2024 - Método SVD-LLM
  3. Touvron et al., 2023 - Serie de modelos LLaMA
  4. Literatura relacionada de múltiples conjuntos de datos de referencia y herramientas de evaluación

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para problemas clave en el campo de compresión de LLM. El diseño del método es razonable, la verificación experimental es exhaustiva, los resultados son significativos, y posee importante valor académico y práctico. Aunque hay espacio para mejora en análisis teórico y optimización de hardware, en general es una contribución importante en este campo.