2025-11-16T20:52:12.570613

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Lu, Chen, Chang et al.
Although large language models (LLM) have achieved remarkable performance, their enormous parameter counts hinder deployment on resource-constrained hardware. Low-rank compression can reduce both memory usage and computational demand, but applying a uniform compression ratio across all layers often leads to significant performance degradation, and previous methods perform poorly during decoding. To address these issues, we propose the Fine-grained Low-Rank Compressor (FLRC), which efficiently determines an optimal rank allocation for each layer, and incorporates progressive low-rank decoding to maintain text generation quality. Comprehensive experiments on diverse benchmarks demonstrate the superiority of FLRC, achieving up to a 17% improvement in ROUGE-L on summarization tasks compared to state-of-the-art low-rank compression methods, establishing a more robust and efficient framework to improve LLM inference.
academic

FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference

Основная информация

  • ID статьи: 2510.09332
  • Название: FLRC: Fine-grained Low-Rank Compressor for Efficient LLM Inference
  • Авторы: Yu-Chen Lu, Chong-Yan Chen, Chi-Chih Chang, Yu-Fang Hu, Kai-Chiang Wu
  • Учреждения: National Yang Ming Chiao Tung University, Macronix International Co., Ltd., Cornell University
  • Категория: cs.CL cs.AI
  • Дата публикации: 10 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.09332

Аннотация

Несмотря на выдающиеся результаты больших языковых моделей (LLM), их огромное количество параметров препятствует развертыванию на оборудовании с ограниченными ресурсами. Низкоранговое сжатие может снизить использование памяти и вычислительные требования, однако применение единого коэффициента сжатия ко всем слоям часто приводит к значительному снижению производительности, и существующие методы плохо работают на этапе декодирования. Для решения этих проблем в данной работе предлагается Fine-grained Low-Rank Compressor (FLRC), который эффективно определяет оптимальное распределение ранга для каждого слоя и объединяет прогрессивное низкоранговое декодирование для сохранения качества генерации текста. Комплексные эксперименты на разнообразных тестовых наборах демонстрируют превосходство FLRC, достигая улучшения ROUGE-L на 17% по сравнению с передовыми методами низкорангового сжатия в задачах суммаризации.

Исследовательский контекст и мотивация

Определение проблемы

Основные проблемы, с которыми сталкиваются большие языковые модели:

  1. Сложность развертывания: Огромное количество параметров и высокие вычислительные требования затрудняют развертывание на мобильных устройствах и серверах граничных вычислений с ограниченными ресурсами
  2. Неэффективное сжатие: Существующие методы низкорангового сжатия используют единый коэффициент сжатия, игнорируя различия в толерантности разных слоев к сжатию
  3. Снижение производительности при декодировании: Существующие методы сосредоточены на этапе предзаполнения, показывая значительное снижение производительности в многораундовых задачах декодирования (например, суммаризация текста)

Исследовательская мотивация

  1. Практические требования развертывания: С распространением приложений LLM растет потребность в эффективном развертывании на устройствах с ограниченными ресурсами
  2. Ограничения существующих методов: Единая стратегия сжатия не может полностью использовать гетерогенность структуры модели
  3. Обеспечение качества генерации: Задачи генерации текста требуют высокого качества последовательного декодирования, что требует специализированных стратегий оптимизации

Основные вклады

  1. Предложение алгоритма распределения ранга на основе Fisher на уровне слоев: На основе измерения важности градиентов и весов определяется оптимальное распределение ранга для каждого слоя проекции, что сокращает время поиска в 49 раз по сравнению с методом ASVD
  2. Введение механизма прогрессивного низкорангового декодирования: Динамическая регулировка распределения ранга во время процесса декодирования, использование большего количества параметров для ранних токенов и постепенное снижение для поздних, сохраняя качество генерации при повышении коэффициента сжатия
  3. Создание структуры мелкозернистого сжатия: Объединение распределения ранга на уровне слоев с прогрессивным декодированием в полное решение для сжатия LLM
  4. Достижение значительного улучшения производительности: Улучшение оценки ROUGE-L на 17,35% по сравнению с существующими методами в задачах суммаризации, сохраняя при этом отличные результаты в задачах понимания

Подробное описание метода

Определение задачи

Входные данные: Предварительно обученная большая языковая модель M, целевой коэффициент сжатия Выходные данные: Сжатая модель, которая уменьшает количество параметров и вычислительные затраты при сохранении качества генерации Ограничения: Максимизация производительности модели в рамках заданного бюджета параметров

Архитектура модели

1. Распределение ранга на основе Fisher на уровне слоев

Основная идея этого алгоритма заключается в назначении разных рангов каждому слою проекции в модели с дифференцированным сжатием на основе их важности.

Расчет важности: Для каждой проекции p в слое l мера важности определяется как:

αl,p = Σi (Gl,p[i] × Wl,p[i])²

где Gl,p — градиент, Wl,p — параметры веса.

Стратегия распределения ранга:

rl,p = round(αl,p/S × Rbudget)

где S — общая оценка важности, Rbudget — общий бюджет ранга.

Процесс алгоритма:

  1. Вычисление градиентов для каждого слоя проекции с использованием набора данных калибровки
  2. Расчет оценок важности на основе градиентов и весов
  3. Распределение бюджета ранга пропорционально важности
  4. Генерация схемы распределения ранга на уровне слоев

2. Прогрессивное низкоранговое декодирование

Этот механизм основан на наблюдении, что ранние токены в генерации текста оказывают большее влияние на общую связность и качество.

Динамическая регулировка ранга:

rl,p(t) = round(αl,p/S × Rbudget(t))

где Rbudget(t) — бюджет ранга для t-го токена, удовлетворяющий свойству неубывания.

Стратегия планирования:

  • Ранние токены: использование большего набора параметров для обеспечения качества генерации
  • Поздние токены: постепенное снижение конфигурации ранга для повышения общего коэффициента сжатия
  • Определение оптимальной схемы планирования с использованием набора данных калибровки

Технические инновации

  1. Применение критерия информации Fisher: Объединение информации о градиентах и весах для оценки важности проекции, что более точно, чем методы, основанные только на амплитуде весов или градиентах
  2. Парадигма динамического сжатия: Преодоление ограничений статического сжатия путем динамической регулировки коэффициента сжатия в соответствии с характеристиками процесса генерации
  3. Мелкозернистая оптимизация: Оптимизация на уровне проекции, а не на уровне слоя, обеспечивающая более точное распределение ресурсов
  4. Комплексная структура: Объединение распределения ранга и динамического декодирования в единую структуру с совместной оптимизацией

Экспериментальная установка

Наборы данных

  1. Задачи суммаризации: DialogSum, CNN/DM
  2. Задачи понимания: Wikitext2 (перплексия), 7 задач с нулевым примером из LM-Evaluation-Harness
  3. Данные калибровки:
    • Распределение ранга: 256 последовательностей из набора обучения Wikitext2 (длина 2048)
    • Планировщик: 500 образцов из набора обучения DialogSum

Метрики оценки

  1. Задачи генерации: ROUGE-L, BERTScore
  2. Задачи понимания: Перплексия, точность с нулевым примером
  3. Метрики эффективности: Время поиска, скорость вывода

Методы сравнения

  1. ASVD: Разложение по сингулярным значениям с учетом активации
  2. SVD-LLM: Метод отбеливания данных с учетом усечения
  3. Абляционные исследования: Отдельное тестирование вклада компонентов FLRA и PLRD

Детали реализации

  • Модели: LLaMA-2-7B-Chat, LLaMA-3-8B-Instruct и др.
  • Коэффициенты сжатия: 10%, 20%, 30% и другие уровни
  • Оборудование: GPU A100
  • На основе процесса SVD-LLM с применением модулей распределения ранга и прогрессивного декодирования FLRC

Результаты экспериментов

Основные результаты

Производительность в задачах генерации

На LLaMA-3-8B-Instruct при коэффициенте сжатия 20%:

  • DialogSum ROUGE-L: FLRC 17,35% vs ASVD 0,10% vs SVD-LLM 0,24%
  • CNN/DM ROUGE-L: FLRC 17,72% vs ASVD 0,54% vs SVD-LLM 6,29%

Производительность в задачах понимания

На LLaMA-3-8B при коэффициенте сжатия 20%:

  • Перплексия Wikitext2: FLRC 12,53 vs ASVD 3206,80 vs SVD-LLM 14,72
  • Средняя точность с нулевым примером: FLRC 43,66% vs ASVD 31,58% vs SVD-LLM 41,63%

Улучшение эффективности

  • Время поиска: FLRC 3 минуты vs ASVD 147 минут (ускорение в 49 раз)
  • Ускорение вывода: Максимум 2,12 раза в сценариях offloading

Абляционные исследования

На LLaMA-3-8B-Instruct при коэффициенте сжатия 20% в задаче DialogSum:

  • Только SVD-LLM: 0,24% ROUGE-L
  • SVD-LLM + FLRA: 13,28% ROUGE-L
  • SVD-LLM + FLRA + PLRD: 17,35% ROUGE-L

Результаты показывают значительный вклад обоих компонентов в улучшение производительности.

Анализ примеров

Анализ важности показал:

  • Огромные различия в важности проекций разных слоев
  • down_proj обычно имеет наивысшую оценку важности
  • Поздние слои более чувствительны к сжатию, чем ранние

Экспериментальные выводы

  1. Различия на уровне слоев: Существуют значительные различия в толерантности разных слоев модели к сжатию
  2. Чувствительность при декодировании: Задачи генерации более чувствительны к коэффициенту сжатия, чем задачи понимания
  3. Эффект масштаба: Преимущества FLRC более выражены на больших моделях
  4. Универсальность: Метод остается эффективным на различных архитектурах моделей и уровнях точности

Связанные работы

Основные направления исследований

  1. Методы сжатия моделей: Включая прунинг, квантизацию, дистилляцию знаний и др.
  2. Методы низкорангового разложения: Методы разложения матриц параметров на основе SVD
  3. Динамический вывод: Регулировка конфигурации модели в зависимости от входных данных или этапа вычисления

Связь данной работы с существующими исследованиями

  1. По сравнению с ASVD: Предложение более эффективного алгоритма распределения ранга с значительным сокращением времени поиска
  2. По сравнению с SVD-LLM: Введение механизма динамического декодирования, значительно улучшающего производительность в задачах генерации
  3. По сравнению с другими методами распределения: Метод на основе Fisher более эффективен и точен, чем методы на основе Гессиана и байесовской оптимизации

Сравнение преимуществ

  1. Преимущество в эффективности: Распределение ранга завершается за одну итерацию, избегая временных затрат на итеративную оптимизацию
  2. Преимущество в точности: Мелкозернистая оптимизация на уровне проекции более точна, чем оптимизация на уровне слоя или блока
  3. Преимущество в адаптивности: Механизм динамической регулировки лучше адаптируется к характеристикам задач генерации

Выводы и обсуждение

Основные выводы

  1. Эффективность мелкозернистого сжатия: Дифференцированное сжатие на уровне проекции значительно превосходит стратегии единого сжатия
  2. Необходимость динамического декодирования: Прогрессивная регулировка ранга критична для сохранения качества генерации
  3. Универсальность метода: FLRC демонстрирует отличные результаты на различных размерах моделей и типах задач
  4. Практическая ценность: Значительно повышенная эффективность поиска делает метод практически применимым для развертывания

Ограничения

  1. Зависимость от данных калибровки: Производительность метода зависит от выбора набора данных калибровки, различные наборы данных могут привести к различиям в производительности
  2. Затраты планировщика: Динамическое распределение ранга вводит дополнительные вычислительные затраты, требующие дальнейшей инженерной оптимизации
  3. Сценарии, ограниченные памятью: Метод показывает лучшие результаты в средах с ограниченной памятью, но преимущества могут быть менее выраженными в сценариях с ограниченными вычислениями

Направления будущих исследований

  1. Инженерная оптимизация: Сосредоточение на снижении затрат динамического распределения ранга, разработка специализированных ядер
  2. Адаптивное планирование: Разработка более интеллектуальных алгоритмов планирования, снижение зависимости от данных калибровки
  3. Расширение на мультимодальные модели: Распространение метода на сжатие мультимодальных больших моделей

Глубокая оценка

Преимущества

  1. Высокая инновационность: Первое применение критерия информации Fisher к мелкозернистому распределению ранга в LLM, предложение новой парадигмы динамического декодирования
  2. Полнота экспериментов: Охват различных моделей, задач и коэффициентов сжатия, разумный дизайн абляционных исследований
  3. Значительные результаты: Прорывные улучшения в задачах генерации, решение ключевых проблем существующих методов
  4. Высокая практическая ценность: Значительное сокращение времени поиска и хороший эффект ускорения имеют практическое значение для развертывания
  5. Глубокий анализ: Предоставление богатых аналитических экспериментов, включая визуализацию важности, анализ чувствительности и др.

Недостатки

  1. Теоретическая база: Отсутствие теоретического анализа того, почему мера важности на основе Fisher является оптимальной
  2. Стратегия планирования: Стратегия планирования прогрессивного декодирования в основном основана на опыте, не хватает теоретического руководства
  3. Оптимизация оборудования: Недостаточно деталей в реализации динамического распределения ранга на оборудовании
  4. Диапазон сравнения: Основное сравнение с методами на основе SVD, ограниченное сравнение с другими методами сжатия

Влияние

  1. Академический вклад: Предоставление новых направлений исследований и технологических путей для области сжатия LLM
  2. Практическая ценность: Значительное улучшение производительности и эффективности имеют важное значение для промышленного применения
  3. Воспроизводимость: Четкое описание метода, подробная установка экспериментов, хорошая воспроизводимость
  4. Вдохновляющее значение: Идея динамического сжатия может вдохновить больше связанных исследований

Применимые сценарии

  1. Развертывание на граничных устройствах: Особенно подходит для мобильных устройств и серверов граничных вычислений с ограниченными ресурсами
  2. Сценарии с ограниченной памятью: Эффект особенно выражен в случаях, требующих offloading модели
  3. Задачи генерации: Имеет особую ценность для суммаризации текста, генерации диалогов и других задач
  4. Большие модели: Преимущества более выражены на больших моделях

Библиография

В статье цитируется богатый объем связанных работ, включая:

  1. Yuan et al., 2023 - метод ASVD
  2. Wang et al., 2024 - метод SVD-LLM
  3. Touvron et al., 2023 - семейство моделей LLaMA
  4. Литература по различным тестовым наборам и инструментам оценки

Общая оценка: Это высококачественная исследовательская статья, предлагающая инновационное решение ключевых проблем в области сжатия LLM. Метод хорошо разработан, эксперименты полны, результаты значительны и имеют важное академическое и практическое значение. Хотя есть место для улучшения в теоретическом анализе и оптимизации оборудования, в целом это важный вклад в данную область.