2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.

Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.

academic

FLRC: Compresor de Rango Bajo de Grano Fino para Inferencia Eficiente de LLM

Información Básica

ID del Artículo: 2510.09332
Título: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
Autores: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
Instituciones: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
Clasificación: cs.CL cs.AI
Fecha de Publicación: 10 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.09332

Resumen

Aunque los modelos de lenguaje grande han logrado un desempeño excepcional, su enorme cantidad de parámetros obstaculiza su implementación en hardware con recursos limitados. La compresión de rango bajo puede reducir el uso de memoria y los requisitos computacionales, pero la aplicación de una relación de compresión uniforme en todas las capas a menudo resulta en una disminución significativa del desempeño, y los métodos existentes funcionan mal durante la fase de decodificación. Para abordar estos problemas, este artículo propone el Compresor de Rango Bajo de Grano Fino (FLRC), que puede determinar de manera eficiente la asignación óptima de rango para cada capa, combinado con decodificación de rango bajo progresiva para mantener la calidad de la generación de texto. Los experimentos exhaustivos en múltiples puntos de referencia demuestran la superioridad de FLRC, logrando una mejora de ROUGE-L de hasta el 17% en tareas de resumen en comparación con los métodos de compresión de rango bajo más avanzados.

Antecedentes de Investigación y Motivación

Definición del Problema

Los problemas centrales que enfrentan los modelos de lenguaje grande (LLM) son:

Dificultad de Implementación: La enorme cantidad de parámetros y los altos requisitos computacionales hacen que sea difícil implementar en entornos con recursos limitados como dispositivos móviles y servidores periféricos
Compresión Deficiente: Los métodos de compresión de rango bajo existentes utilizan una relación de compresión uniforme, ignorando las diferencias en la tolerancia a la compresión entre capas diferentes
Disminución del Desempeño en Decodificación: Los métodos existentes se centran principalmente en la fase de prefill, con un desempeño significativamente reducido en tareas de decodificación multiturno (como resumen de texto)

Motivación de la Investigación

Necesidad Práctica de Implementación: Con la popularización de las aplicaciones de LLM, la necesidad de implementación eficiente en dispositivos con recursos limitados es cada vez más urgente
Limitaciones de Métodos Existentes: Las estrategias de compresión uniforme no pueden aprovechar plenamente la heterogeneidad de la estructura del modelo
Garantía de Calidad de Decodificación: Las tareas de generación de texto requieren alta calidad de decodificación continua, necesitando estrategias de optimización especializadas

Contribuciones Principales

Propone un Algoritmo de Asignación de Rango a Nivel de Capa Basado en Fisher: Basado en medidas de importancia de gradientes y pesos, determina la asignación óptima de rango para cada capa de proyección, reduciendo el tiempo de búsqueda en 49 veces en comparación con el método ASVD
Introduce un Mecanismo de Decodificación de Rango Bajo Progresivo: Ajusta dinámicamente la asignación de rango durante el proceso de decodificación, utilizando más parámetros para tokens tempranos y reduciéndolos gradualmente para tokens posteriores, mejorando la tasa de compresión mientras se mantiene la calidad de generación
Establece un Marco de Compresión de Grano Fino: Combina la asignación de rango a nivel de capa con decodificación progresiva, formando una solución completa de compresión de LLM
Logra Mejoras Significativas de Desempeño: En tareas de resumen, la puntuación ROUGE-L mejora hasta un 17.35% en comparación con métodos existentes, mientras mantiene un desempeño excelente en tareas de comprensión

Explicación Detallada del Método

Definición de la Tarea

Entrada: Modelo de lenguaje grande preentrenado M, relación de compresión objetivo Salida: Modelo comprimido que reduce la cantidad de parámetros y la sobrecarga computacional mientras mantiene la calidad de generación Restricciones: Maximizar el desempeño del modelo dentro del presupuesto de parámetros dado

Arquitectura del Modelo

1. Asignación de Rango a Nivel de Capa Basada en Fisher

La idea central de este algoritmo es asignar diferentes rangos a cada capa de proyección en el modelo, realizando compresión diferenciada basada en su importancia.

Cálculo de Importancia: Para cada proyección p en la capa l, la medida de importancia se define como:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

donde Gl,p es el gradiente y Wl,p son los parámetros de peso.

Estrategia de Asignación de Rango:

rl,p = round(αl,p/S × Rbudget)

donde S es la puntuación de importancia total y Rbudget es el presupuesto de rango total.

Flujo del Algoritmo:

Calcular gradientes de cada capa de proyección utilizando un conjunto de datos de calibración
Calcular puntuaciones de importancia basadas en gradientes y pesos
Asignar presupuesto de rango proporcionalmente según importancia
Generar esquema de asignación de rango a nivel de capa

2. Decodificación de Rango Bajo Progresiva

Este mecanismo se basa en la observación de que en la generación de texto, los tokens tempranos tienen un mayor impacto en la coherencia y calidad general.

Ajuste Dinámico de Rango:

rl,p(t) = round(αl,p/S × Rbudget(t))

donde Rbudget(t) es el presupuesto de rango para el token t, satisfaciendo la propiedad no creciente.

Estrategia de Programación:

Tokens tempranos: Utilizar un conjunto de parámetros más grande para garantizar la calidad de generación
Tokens posteriores: Reducir gradualmente la configuración de rango para mejorar la tasa de compresión general
Determinar el esquema de programación óptimo mediante un conjunto de datos de calibración

Puntos de Innovación Técnica

Aplicación del Criterio de Información de Fisher: Combina información de gradientes y pesos para evaluar la importancia de proyecciones, más preciso que métodos basados únicamente en amplitud de pesos o gradientes
Paradigma de Compresión Dinámica: Rompe las limitaciones de la compresión estática, ajustando dinámicamente la tasa de compresión según las características del proceso de generación
Optimización de Grano Fino: Realiza optimización a nivel de proyección en lugar de a nivel de capa, logrando una asignación de recursos más precisa
Marco Integral: Unifica la asignación de rango y decodificación dinámica en un marco único, optimizando de manera coordinada

Configuración Experimental

Conjuntos de Datos

Tareas de Resumen: DialogSum, CNN/DM
Tareas de Comprensión: Wikitext2 (perplejidad), 7 tareas de aprendizaje cero en LM-Evaluation-Harness
Datos de Calibración:
- Asignación de rango: 256 secuencias del conjunto de entrenamiento de Wikitext2 (longitud 2048)
- Programador: 500 muestras del conjunto de entrenamiento de DialogSum

Métricas de Evaluación

Tareas de Generación: ROUGE-L, BERTScore
Tareas de Comprensión: Perplejidad, precisión de aprendizaje cero
Métricas de Eficiencia: Tiempo de búsqueda, velocidad de inferencia

Métodos de Comparación

ASVD: Descomposición de valores singulares consciente de activación
SVD-LLM: Método de blanqueamiento de datos consciente de truncamiento
Experimentos de Ablación: Pruebas de contribución de componentes FLRA y PLRD por separado

Detalles de Implementación

Modelos: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct, etc.
Tasas de Compresión: 10%, 20%, 30% y otros niveles
Hardware: GPU A100
Basado en el flujo de SVD-LLM, aplicando módulos de asignación de rango y decodificación progresiva de FLRC

Resultados Experimentales

Resultados Principales

Desempeño en Tareas de Generación

En LLaMA-3-8B-Instruct, con tasa de compresión del 20%:

DialogSum ROUGE-L: FLRC 17.35% vs ASVD 0.10% vs SVD-LLM 0.24%
CNN/DM ROUGE-L: FLRC 17.72% vs ASVD 0.54% vs SVD-LLM 6.29%

Desempeño en Tareas de Comprensión

En LLaMA-3-8B, con tasa de compresión del 20%:

Perplejidad de Wikitext2: FLRC 12.53 vs ASVD 3206.80 vs SVD-LLM 14.72
Precisión Promedio de Aprendizaje Cero: FLRC 43.66% vs ASVD 31.58% vs SVD-LLM 41.63%

Mejoras de Eficiencia

Tiempo de Búsqueda: FLRC 3 minutos vs ASVD 147 minutos (aceleración de 49 veces)
Aceleración de Inferencia: Hasta 2.12 veces de aceleración en escenarios de offloading

Experimentos de Ablación

En LLaMA-3-8B-Instruct, tarea de DialogSum con tasa de compresión del 20%:

Solo SVD-LLM: 0.24% ROUGE-L
SVD-LLM + FLRA: 13.28% ROUGE-L
SVD-LLM + FLRA + PLRD: 17.35% ROUGE-L

Los resultados demuestran que ambos componentes contribuyen significativamente a la mejora del desempeño.

Análisis de Casos

Mediante análisis de importancia se descubre:

Existen diferencias enormes en la importancia de proyecciones entre capas diferentes
down_proj generalmente tiene las puntuaciones de importancia más altas
Las capas posteriores son más sensibles a la compresión que las capas anteriores

Hallazgos Experimentales

Heterogeneidad a Nivel de Capa: Existe una diferencia significativa en la tolerancia a la compresión entre capas diferentes del modelo
Sensibilidad de Decodificación: Las tareas de generación son más sensibles a la tasa de compresión que las tareas de comprensión
Efecto de Escala: La ventaja de FLRC es más evidente en modelos más grandes
Universalidad: El método mantiene su efectividad en diferentes arquitecturas de modelos y precisiones

Trabajo Relacionado

Direcciones Principales de Investigación

Técnicas de Compresión de Modelos: Incluyendo poda, cuantificación, destilación de conocimiento, etc.
Métodos de Descomposición de Rango Bajo: Técnicas de descomposición de matrices de parámetros basadas en SVD
Inferencia Dinámica: Ajuste de configuración del modelo según entrada o etapa de cálculo

Relación de Este Artículo con Trabajo Relacionado

Comparado con ASVD: Propone un algoritmo de asignación de rango más eficiente, reduciendo significativamente el tiempo de búsqueda
Comparado con SVD-LLM: Introduce un mecanismo de decodificación dinámica, mejorando significativamente el desempeño en tareas de generación
Comparado con Otros Métodos de Asignación: El método basado en Fisher es más eficiente y preciso que métodos basados en Hessian y optimización Bayesiana

Ventajas Comparativas

Ventaja de Eficiencia: Completa la asignación de rango en una sola iteración, evitando la sobrecarga de tiempo de optimización iterativa
Ventaja de Precisión: La optimización de grano fino a nivel de proyección es más precisa que la optimización a nivel de capa o bloque
Ventaja de Adaptabilidad: El mecanismo de ajuste dinámico se adapta mejor a las características de tareas de generación

Conclusiones y Discusión

Conclusiones Principales

Efectividad de Compresión de Grano Fino: La compresión diferenciada a nivel de proyección es significativamente superior a las estrategias de compresión uniforme
Necesidad de Decodificación Dinámica: El ajuste de rango progresivo es crucial para mantener la calidad de generación
Universalidad del Método: FLRC demuestra un desempeño excelente en diferentes escalas de modelos y tipos de tareas
Valor Práctico: La eficiencia de búsqueda significativamente mejorada hace que el método sea valioso para implementación práctica

Limitaciones

Dependencia de Datos de Calibración: El desempeño del método se ve afectado por la selección del conjunto de datos de calibración, diferentes conjuntos de datos pueden resultar en variaciones de desempeño
Sobrecarga del Programador: La asignación de rango dinámica introduce sobrecarga computacional adicional, requiriendo optimización de ingeniería adicional
Escenarios Limitados por Memoria: El efecto es mejor en entornos con memoria limitada, pero la ventaja puede no ser evidente en escenarios limitados por cálculo

Direcciones Futuras

Optimización de Ingeniería: Enfocarse en reducir la sobrecarga de asignación de rango dinámica, diseñando kernels especializados
Programación Adaptativa: Desarrollar algoritmos de programación más inteligentes, reduciendo la dependencia de datos de calibración
Extensión Multimodal: Extender el método a la compresión de modelos de lenguaje grandes multimodales

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera aplicación del criterio de información de Fisher a la asignación de rango de grano fino en LLM, proponiendo un nuevo paradigma de decodificación dinámica
Experimentos Exhaustivos: Cubre múltiples modelos, tareas y tasas de compresión, con diseño razonable de experimentos de ablación
Resultados Significativos: Logra mejoras revolucionarias en tareas de generación, resolviendo puntos débiles clave de métodos existentes
Valor Práctico Alto: El tiempo de búsqueda significativamente reducido y el buen efecto de aceleración tienen valor importante para implementación práctica
Análisis Profundo: Proporciona experimentos de análisis ricos, incluyendo visualización de importancia, análisis de sensibilidad, etc.

Insuficiencias

Fundamento Teórico: Carece de análisis teórico sobre por qué la medida de importancia basada en Fisher es óptima
Estrategia de Programación: La estrategia de programación de decodificación progresiva se basa principalmente en experiencia, careciendo de orientación teórica
Optimización de Hardware: Los detalles de implementación de hardware para asignación de rango dinámica no son suficientemente detallados
Rango de Comparación: Principalmente compara con métodos basados en SVD, con comparación limitada con otras técnicas de compresión

Impacto

Contribución Académica: Proporciona nuevas direcciones de investigación y caminos técnicos para el campo de compresión de LLM
Valor Práctico: Las mejoras significativas de desempeño y eficiencia tienen importante valor de aplicación industrial
Reproducibilidad: La descripción del método es clara, la configuración experimental es detallada, con buena reproducibilidad
Significado Inspirador: La idea de compresión dinámica puede inspirar más investigaciones relacionadas

Escenarios Aplicables

Implementación Periférica: Particularmente adecuado para dispositivos móviles y servidores periféricos con recursos limitados
Escenarios Limitados por Memoria: El efecto es especialmente destacado cuando se requiere offloading de modelo
Tareas de Generación: Tiene valor especial para tareas como resumen de texto y generación de diálogos
Modelos Grandes: Las ventajas son más evidentes en modelos más grandes

Referencias

El artículo cita abundante trabajo relacionado, incluyendo principalmente:

Yuan et al., 2023 - Método ASVD
Wang et al., 2024 - Método SVD-LLM
Touvron et al., 2023 - Serie de modelos LLaMA
Literatura relacionada de múltiples conjuntos de datos de referencia y herramientas de evaluación

Evaluación General: Este es un artículo de investigación de alta calidad que propone una solución innovadora para problemas clave en el campo de compresión de LLM. El diseño del método es razonable, la verificación experimental es exhaustiva, los resultados son significativos, y posee importante valor académico y práctico. Aunque hay espacio para mejora en análisis teórico y optimización de hardware, en general es una contribución importante en este campo.