2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.

Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.

academic

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Основная информация

ID статьи: 2510.09332
Название: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
Авторы: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
Учреждения: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
Категория: cs.CL cs.AI
Дата публикации: 10 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09332

Аннотация

Несмотря на выдающиеся результаты больших языковых моделей (LLM), их огромное количество параметров препятствует развертыванию на оборудовании с ограниченными ресурсами. Низкоранговое сжатие может снизить использование памяти и вычислительные требования, однако применение единого коэффициента сжатия ко всем слоям часто приводит к значительному снижению производительности, и существующие методы плохо работают на этапе декодирования. Для решения этих проблем в данной работе предлагается Fine-grained Low-Rank Compressor (FLRC), который эффективно определяет оптимальное распределение ранга для каждого слоя и объединяет прогрессивное низкоранговое декодирование для сохранения качества генерации текста. Комплексные эксперименты на разнообразных тестовых наборах демонстрируют превосходство FLRC, достигая улучшения ROUGE-L на 17% по сравнению с передовыми методами низкорангового сжатия в задачах суммаризации.

Исследовательский контекст и мотивация

Определение проблемы

Основные проблемы, с которыми сталкиваются большие языковые модели:

Сложность развертывания: Огромное количество параметров и высокие вычислительные требования затрудняют развертывание на мобильных устройствах и серверах граничных вычислений с ограниченными ресурсами
Неэффективное сжатие: Существующие методы низкорангового сжатия используют единый коэффициент сжатия, игнорируя различия в толерантности разных слоев к сжатию
Снижение производительности при декодировании: Существующие методы сосредоточены на этапе предзаполнения, показывая значительное снижение производительности в многораундовых задачах декодирования (например, суммаризация текста)

Исследовательская мотивация

Практические требования развертывания: С распространением приложений LLM растет потребность в эффективном развертывании на устройствах с ограниченными ресурсами
Ограничения существующих методов: Единая стратегия сжатия не может полностью использовать гетерогенность структуры модели
Обеспечение качества генерации: Задачи генерации текста требуют высокого качества последовательного декодирования, что требует специализированных стратегий оптимизации

Основные вклады

Предложение алгоритма распределения ранга на основе Fisher на уровне слоев: На основе измерения важности градиентов и весов определяется оптимальное распределение ранга для каждого слоя проекции, что сокращает время поиска в 49 раз по сравнению с методом ASVD
Введение механизма прогрессивного низкорангового декодирования: Динамическая регулировка распределения ранга во время процесса декодирования, использование большего количества параметров для ранних токенов и постепенное снижение для поздних, сохраняя качество генерации при повышении коэффициента сжатия
Создание структуры мелкозернистого сжатия: Объединение распределения ранга на уровне слоев с прогрессивным декодированием в полное решение для сжатия LLM
Достижение значительного улучшения производительности: Улучшение оценки ROUGE-L на 17,35% по сравнению с существующими методами в задачах суммаризации, сохраняя при этом отличные результаты в задачах понимания

Подробное описание метода

Определение задачи

Входные данные: Предварительно обученная большая языковая модель M, целевой коэффициент сжатия Выходные данные: Сжатая модель, которая уменьшает количество параметров и вычислительные затраты при сохранении качества генерации Ограничения: Максимизация производительности модели в рамках заданного бюджета параметров

Архитектура модели

1. Распределение ранга на основе Fisher на уровне слоев

Основная идея этого алгоритма заключается в назначении разных рангов каждому слою проекции в модели с дифференцированным сжатием на основе их важности.

Расчет важности: Для каждой проекции p в слое l мера важности определяется как:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

где Gl,p — градиент, Wl,p — параметры веса.

Стратегия распределения ранга:

rl,p = round(αl,p/S × Rbudget)

где S — общая оценка важности, Rbudget — общий бюджет ранга.

Процесс алгоритма:

Вычисление градиентов для каждого слоя проекции с использованием набора данных калибровки
Расчет оценок важности на основе градиентов и весов
Распределение бюджета ранга пропорционально важности
Генерация схемы распределения ранга на уровне слоев

2. Прогрессивное низкоранговое декодирование

Этот механизм основан на наблюдении, что ранние токены в генерации текста оказывают большее влияние на общую связность и качество.

Динамическая регулировка ранга:

rl,p(t) = round(αl,p/S × Rbudget(t))

где Rbudget(t) — бюджет ранга для t-го токена, удовлетворяющий свойству неубывания.

Стратегия планирования:

Ранние токены: использование большего набора параметров для обеспечения качества генерации
Поздние токены: постепенное снижение конфигурации ранга для повышения общего коэффициента сжатия
Определение оптимальной схемы планирования с использованием набора данных калибровки

Технические инновации

Применение критерия информации Fisher: Объединение информации о градиентах и весах для оценки важности проекции, что более точно, чем методы, основанные только на амплитуде весов или градиентах
Парадигма динамического сжатия: Преодоление ограничений статического сжатия путем динамической регулировки коэффициента сжатия в соответствии с характеристиками процесса генерации
Мелкозернистая оптимизация: Оптимизация на уровне проекции, а не на уровне слоя, обеспечивающая более точное распределение ресурсов
Комплексная структура: Объединение распределения ранга и динамического декодирования в единую структуру с совместной оптимизацией

Экспериментальная установка

Наборы данных

Задачи суммаризации: DialogSum, CNN/DM
Задачи понимания: Wikitext2 (перплексия), 7 задач с нулевым примером из LM-Evaluation-Harness
Данные калибровки:
- Распределение ранга: 256 последовательностей из набора обучения Wikitext2 (длина 2048)
- Планировщик: 500 образцов из набора обучения DialogSum

Метрики оценки

Задачи генерации: ROUGE-L, BERTScore
Задачи понимания: Перплексия, точность с нулевым примером
Метрики эффективности: Время поиска, скорость вывода

Методы сравнения

ASVD: Разложение по сингулярным значениям с учетом активации
SVD-LLM: Метод отбеливания данных с учетом усечения
Абляционные исследования: Отдельное тестирование вклада компонентов FLRA и PLRD

Детали реализации

Модели: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct и др.
Коэффициенты сжатия: 10%, 20%, 30% и другие уровни
Оборудование: GPU A100
На основе процесса SVD-LLM с применением модулей распределения ранга и прогрессивного декодирования FLRC

Результаты экспериментов

Основные результаты

Производительность в задачах генерации

На LLaMA-3-8B-Instruct при коэффициенте сжатия 20%:

DialogSum ROUGE-L: FLRC 17,35% vs ASVD 0,10% vs SVD-LLM 0,24%
CNN/DM ROUGE-L: FLRC 17,72% vs ASVD 0,54% vs SVD-LLM 6,29%

Производительность в задачах понимания

На LLaMA-3-8B при коэффициенте сжатия 20%:

Перплексия Wikitext2: FLRC 12,53 vs ASVD 3206,80 vs SVD-LLM 14,72
Средняя точность с нулевым примером: FLRC 43,66% vs ASVD 31,58% vs SVD-LLM 41,63%

Улучшение эффективности

Время поиска: FLRC 3 минуты vs ASVD 147 минут (ускорение в 49 раз)
Ускорение вывода: Максимум 2,12 раза в сценариях offloading

Абляционные исследования

На LLaMA-3-8B-Instruct при коэффициенте сжатия 20% в задаче DialogSum:

Только SVD-LLM: 0,24% ROUGE-L
SVD-LLM + FLRA: 13,28% ROUGE-L
SVD-LLM + FLRA + PLRD: 17,35% ROUGE-L

Результаты показывают значительный вклад обоих компонентов в улучшение производительности.

Анализ примеров

Анализ важности показал:

Огромные различия в важности проекций разных слоев
down_proj обычно имеет наивысшую оценку важности
Поздние слои более чувствительны к сжатию, чем ранние

Экспериментальные выводы

Различия на уровне слоев: Существуют значительные различия в толерантности разных слоев модели к сжатию
Чувствительность при декодировании: Задачи генерации более чувствительны к коэффициенту сжатия, чем задачи понимания
Эффект масштаба: Преимущества FLRC более выражены на больших моделях
Универсальность: Метод остается эффективным на различных архитектурах моделей и уровнях точности

Связанные работы

Основные направления исследований

Методы сжатия моделей: Включая прунинг, квантизацию, дистилляцию знаний и др.
Методы низкорангового разложения: Методы разложения матриц параметров на основе SVD
Динамический вывод: Регулировка конфигурации модели в зависимости от входных данных или этапа вычисления

Связь данной работы с существующими исследованиями

По сравнению с ASVD: Предложение более эффективного алгоритма распределения ранга с значительным сокращением времени поиска
По сравнению с SVD-LLM: Введение механизма динамического декодирования, значительно улучшающего производительность в задачах генерации
По сравнению с другими методами распределения: Метод на основе Fisher более эффективен и точен, чем методы на основе Гессиана и байесовской оптимизации

Сравнение преимуществ

Преимущество в эффективности: Распределение ранга завершается за одну итерацию, избегая временных затрат на итеративную оптимизацию
Преимущество в точности: Мелкозернистая оптимизация на уровне проекции более точна, чем оптимизация на уровне слоя или блока
Преимущество в адаптивности: Механизм динамической регулировки лучше адаптируется к характеристикам задач генерации

Выводы и обсуждение

Основные выводы

Эффективность мелкозернистого сжатия: Дифференцированное сжатие на уровне проекции значительно превосходит стратегии единого сжатия
Необходимость динамического декодирования: Прогрессивная регулировка ранга критична для сохранения качества генерации
Универсальность метода: FLRC демонстрирует отличные результаты на различных размерах моделей и типах задач
Практическая ценность: Значительно повышенная эффективность поиска делает метод практически применимым для развертывания

Ограничения

Зависимость от данных калибровки: Производительность метода зависит от выбора набора данных калибровки, различные наборы данных могут привести к различиям в производительности
Затраты планировщика: Динамическое распределение ранга вводит дополнительные вычислительные затраты, требующие дальнейшей инженерной оптимизации
Сценарии, ограниченные памятью: Метод показывает лучшие результаты в средах с ограниченной памятью, но преимущества могут быть менее выраженными в сценариях с ограниченными вычислениями

Направления будущих исследований

Инженерная оптимизация: Сосредоточение на снижении затрат динамического распределения ранга, разработка специализированных ядер
Адаптивное планирование: Разработка более интеллектуальных алгоритмов планирования, снижение зависимости от данных калибровки
Расширение на мультимодальные модели: Распространение метода на сжатие мультимодальных больших моделей

Глубокая оценка

Преимущества

Высокая инновационность: Первое применение критерия информации Fisher к мелкозернистому распределению ранга в LLM, предложение новой парадигмы динамического декодирования
Полнота экспериментов: Охват различных моделей, задач и коэффициентов сжатия, разумный дизайн абляционных исследований
Значительные результаты: Прорывные улучшения в задачах генерации, решение ключевых проблем существующих методов
Высокая практическая ценность: Значительное сокращение времени поиска и хороший эффект ускорения имеют практическое значение для развертывания
Глубокий анализ: Предоставление богатых аналитических экспериментов, включая визуализацию важности, анализ чувствительности и др.

Недостатки

Теоретическая база: Отсутствие теоретического анализа того, почему мера важности на основе Fisher является оптимальной
Стратегия планирования: Стратегия планирования прогрессивного декодирования в основном основана на опыте, не хватает теоретического руководства
Оптимизация оборудования: Недостаточно деталей в реализации динамического распределения ранга на оборудовании
Диапазон сравнения: Основное сравнение с методами на основе SVD, ограниченное сравнение с другими методами сжатия

Влияние

Академический вклад: Предоставление новых направлений исследований и технологических путей для области сжатия LLM
Практическая ценность: Значительное улучшение производительности и эффективности имеют важное значение для промышленного применения
Воспроизводимость: Четкое описание метода, подробная установка экспериментов, хорошая воспроизводимость
Вдохновляющее значение: Идея динамического сжатия может вдохновить больше связанных исследований

Применимые сценарии

Развертывание на граничных устройствах: Особенно подходит для мобильных устройств и серверов граничных вычислений с ограниченными ресурсами
Сценарии с ограниченной памятью: Эффект особенно выражен в случаях, требующих offloading модели
Задачи генерации: Имеет особую ценность для суммаризации текста, генерации диалогов и других задач
Большие модели: Преимущества более выражены на больших моделях

Библиография

В статье цитируется богатый объем связанных работ, включая:

Yuan et al., 2023 - метод ASVD
Wang et al., 2024 - метод SVD-LLM
Touvron et al., 2023 - семейство моделей LLaMA
Литература по различным тестовым наборам и инструментам оценки

Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационное решение ключевых проблем в области сжатия LLM. Метод хорошо разработан, эксперименты полны, результаты значительны и имеют важное академическое и практическое значение. Хотя есть место для улучшения в теоретическом анализе и оптимизации оборудования, в целом это важный вклад в данную область.