2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff

Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM

academic

TRIM: Достижение экстремальной разреженности с помощью целевого построчного итеративного метрического сокращения

Основная информация

ID статьи: 2505.16743
Название: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
Авторы: Florentin Beck (Университет Тюбингена), William Rudman (Техасский университет в Остине), Carsten Eickhoff (Университет Тюбингена)
Классификация: cs.CL cs.AI cs.LG
Дата публикации: 11 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2505.16743
Ссылка на код: https://github.com/flobk/TRIM

Аннотация

Большие языковые модели (LLM) создают огромные вычислительные и память́ные вызовы из-за своего огромного размера параметров, что делает сокращение модели критически важным для их эффективного развертывания. Существующие методы одноразового сокращения обычно применяют единые ограничения разреженности между слоями или внутри слоев и показывают плохие результаты при высоких коэффициентах разреженности. В этой статье предлагается TRIM (Targeted Row-wise Iterative Metric-driven pruning) — новый метод, применяющий различные коэффициенты разреженности к отдельным выходным измерениям (строкам) внутри каждого слоя. TRIM использует итеративный процесс корректировки, управляемый метриками качества, для оптимизации распределения разреженности на уровне измерений, сосредоточиваясь на снижении дисперсии сохранения качества между выходами для сохранения критической информации. TRIM легко интегрируется с существующими стратегиями сокращения на уровне слоев. Оценка перплексии и нулевых задач на нескольких семействах LLM (Qwen2.5, LLaMA-2 и OPT) и уровнях разреженности показывает, что TRIM достигает новых результатов, превосходящих предыдущие, и повышает стабильность. Например, при 80% разреженности TRIM снижает перплексию Qwen2.5-14B на 48% и перплексию OPT-13B более чем на 90% по сравнению с методами-базовыми линиями.

Исследовательский контекст и мотивация

Определение проблемы

По мере экспоненциального роста размера параметров больших языковых моделей развертывание моделей сталкивается с серьезными проблемами памяти и вычислительных ресурсов. Хотя рост параметров приводит к повышению производительности и возникающим способностям, он также затрудняет вывод в средах с ограниченными ресурсами.

Ограничения существующих методов

Единые ограничения разреженности: Существующие методы одноразового сокращения (такие как Wanda, OWL, AlphaPruning) обычно применяют одинаковый коэффициент разреженности ко всем слоям или всем выходным измерениям внутри слоя
Резкое снижение производительности при высокой разреженности: При экстремальной разреженности (>70%) единые стратегии приводят к значительному ухудшению производительности
Игнорирование гетерогенности измерений: Существуют значительные различия в чувствительности и важности различных выходных измерений к сокращению

Исследовательская мотивация

В статье отмечается, что LLM обладают уникальными характеристиками весов и активаций, такими как выраженные выбросы и высоко асимметричные распределения активаций. Эти характеристики указывают на то, что различные выходные измерения внутри слоя имеют различную чувствительность к сокращению, поэтому требуется более детальная стратегия распределения разреженности.

Основные вклады

Первое распределение разреженности на уровне измерений: Предложен первый алгоритм для расчета различных коэффициентов разреженности для отдельных выходных измерений внутри каждого слоя
Производительность SOTA при экстремальной разреженности: При 80% разреженности значительно снижает перплексию по сравнению с существующими методами (Qwen2.5-14B на 48%, OPT-13B более чем на 90%)
Углубленный эмпирический анализ: Выявляет гетерогенность выходных измерений в отношении чувствительности к сокращению и важности для нижестоящих задач
Универсальный дизайн: TRIM может быть интегрирован с любым алгоритмом сокращения на основе оценки важности с хорошей универсальностью

Подробное описание метода

Определение задачи

Для матрицы весов W ∈ R^(D×N), где D — количество выходных измерений, N — количество входных измерений, целью является определение оптимального коэффициента разреженности Si для каждого выходного измерения Wi,:, чтобы максимизировать общее качество слоя при соблюдении ограничения среднего коэффициента разреженности.

Основной алгоритм: TRIM

Вектор разреженности на уровне измерений

TRIM определяет вектор разреженности на уровне измерений S = S1, S2, ..., SD, где Si ∈ 0,1 указывает целевой коэффициент разреженности для i-го выходного измерения. Ограничение:

1/D * Σ(i=1 to D) Si = T

где T — целевой коэффициент разреженности слоя.

Алгоритм итеративной корректировки

Алгоритм 1: Итеративная корректировка разреженности по измерениям

Инициализация: Вычисление несокращенного выхода Y ← WX, инициализация Si = T (равномерное распределение)
Итеративная оптимизация (K итераций):
- Сокращение на основе текущего S для получения Wpruned
- Вычисление сокращенного выхода Ŷ ← WprunedX
- Оценка общего качества qk ← Qmetric(Y, Ŷ)
- Обновление оптимальной конфигурации (если qk > qbest)
- Вычисление качества каждого измерения ci ← QmetricDimwise(Yi,:, Ŷi,:)
- Нормализация оценок качества в диапазон 0,1
- Корректировка коэффициентов разреженности на основе скорости обучения α: δi ← αc'i
- Перецентрирование для сохранения среднего ограничения: Si ← δi - (1/D)Σδj + T
Возврат: Оптимальное распределение разреженности Sbest

Метрики качества

Качество на уровне слоя: Использование косинусного сходства для оценки качества сокращения всего слоя
Качество на уровне измерений: Вычисление косинусного сходства для каждого выходного измерения для направления корректировки коэффициента разреженности

Технические инновации

Адаптивная скорость обучения: Поддержка положительных и отрицательных скоростей обучения; положительная скорость обучения снижает дисперсию качества, отрицательная скорость подходит для слоев с концентрированными выбросами
Минимизация дисперсии качества: Повышение общей производительности путем снижения дисперсии деградации качества между измерениями
Дизайн совместимости: Может быть интегрирован с существующими правилами оценки (Wanda, Magnitude, SparseGPT, GBLM)

Экспериментальная установка

Наборы данных

Модели: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
Данные оценки: Набор валидации WikiText (перплексия), C4 и Pile (проверка обобщаемости)
Нижестоящие задачи: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA

Метрики оценки

Перплексия: Оценка способности языкового моделирования на наборе валидации WikiText
Точность при нулевых примерах: Средняя производительность на 7 нижестоящих задачах

Методы сравнения

Методы-базовые линии: OWL, AlphaPruning (на основе Wanda)
Исследование абляции: Влияние различных метрик качества, параметров скорости обучения, количества итераций

Детали реализации

Образцы калибровки: Случайно выбранные из набора данных C4, длина последовательности 2048
Ограничения разреженности: Максимум 95% для одного измерения для предотвращения переобучения
Гиперпараметры: K=10 итераций, скорость обучения α определяется поиском по сетке

Результаты экспериментов

Основные результаты

Производительность перплексии (80% разреженность)

Модель	Базовая линия OWL	OWL+TRIM	Улучшение
Qwen2.5-14B	348.48	180.67	-48%
OPT-13B	6461.43	324.14	-95%
LLaMA-2-13B	225.04	154.83	-31%

Производительность задач при нулевых примерах

TRIM достигает повышения производительности на всех протестированных моделях и уровнях разреженности, с средним улучшением на 0,46-0,65 процентных пункта при 80% разреженности.

Исследование абляции

Сравнение метрик качества

Качество на уровне слоя: Косинусное сходство показывает наиболее стабильные результаты
Качество на уровне измерений: Косинусное сходство более надежно по сравнению с MSE и PSNR

Обобщаемость различных метрик сокращения

TRIM показывает улучшения при различных правилах оценки (Magnitude, SparseGPT, GBLM), подтверждая универсальность метода.

Ключевые находки

Наблюдение 1: Гетерогенность измерений

Анализ коэффициента Джини выявляет значительные различия в концентрации оценок важности различных выходных измерений, приводящие к различной чувствительности к сокращению.

Наблюдение 2: Нелинейная деградация качества

По мере увеличения коэффициента разреженности деградация качества ускоряется, что делает детальное распределение еще более важным.

Наблюдение 3: Различия в важности измерений

Эксперименты показывают огромные различия в влиянии полного удаления отдельных измерений:

Измерение с минимальной нормой L2: перплексия увеличивается только на 0,16
Измерение с максимальной нормой L2: перплексия резко возрастает до 273,10

Связанные работы

Классификация методов сокращения

Методы на основе градиента: SNIP, GraSP, SynFlow и др., требуют информации о градиентах и переобучения
Методы одноразового сокращения: SparseGPT, Wanda и др., не требуют переобучения, но имеют ограниченную производительность
Методы адаптации на уровне слоев: OWL, AlphaPruning и др., распределяют различные коэффициенты разреженности разным слоям

Позиционирование TRIM

TRIM — первый метод, выполняющий распределение разреженности на уровне измерений внутри слоя, заполняя пробел в детальном управлении существующих методов.

Заключение и обсуждение

Основные выводы

Необходимость распределения разреженности на уровне измерений: При экстремальной разреженности детальное управление критически важно для сохранения производительности модели
Эффективность минимизации дисперсии качества: Балансировка деградации качества между измерениями значительно повышает общую производительность
Универсальность метода: TRIM может быть интегрирован с различными существующими алгоритмами сокращения с хорошей расширяемостью

Ограничения

Сложность выбора скорости обучения: Слои с концентрированными выбросами требуют отрицательной скорости обучения, что усложняет настройку гиперпараметров
Неструктурированная разреженность: Текущий метод не поддерживает напрямую структурированные паттерны разреженности, такие как n:m
Вычислительные затраты: Итеративный процесс увеличивает время выполнения примерно на 8%

Будущие направления

Поддержка структурированной разреженности: Расширение TRIM для поддержки дружественных к оборудованию паттернов разреженности
Автоматический выбор скорости обучения: Разработка адаптивных механизмов для снижения требований к настройке гиперпараметров
Теоретический анализ: Установление теоретической базы для важности измерений и чувствительности к сокращению

Углубленная оценка

Преимущества

Высокая инновационность: Впервые предложено распределение разреженности на уровне измерений с новой идеей
Достаточные эксперименты: Метод проверен на нескольких семействах моделей и задачах
Теоретическая поддержка: Углубленный анализ выявляет фундаментальные причины эффективности метода
Высокая практическая ценность: Универсальный дизайн облегчает интеграцию в существующие системы

Недостатки

Сложность метода: Увеличивает сложность алгоритма и количество гиперпараметров по сравнению с методами-базовыми линиями
Адаптация к оборудованию: Неструктурированная разреженность ограничивает эффект ускорения на специализированном оборудовании
Недостаточный теоретический анализ: Отсутствуют теоретические гарантии оптимального распределения разреженности

Влияние

Академический вклад: Предоставляет новое направление исследований в области сокращения LLM
Практическая ценность: Имеет важное значение для развертывания больших моделей в средах с ограниченными ресурсами
Воспроизводимость: Предоставляется открытый исходный код для облегчения последующих исследований

Применимые сценарии

Требования экстремальной разреженности: Особенно подходит для сценариев, требующих >70% разреженности
Среды с ограниченными ресурсами: Граничные устройства, мобильные платформы и другие сценарии с ограниченными вычислительными ресурсами
Исследовательские цели: Предоставляет новые ориентиры и идеи для исследования алгоритмов сокращения

Ссылки

В статье цитируются важные работы в области сокращения, включая:

Классические методы сокращения: Le Cun et al. (1989), Han et al. (2015)
Современное сокращение LLM: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
Методы адаптации на уровне слоев: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning

Резюме: TRIM значительно повышает производительность сокращения LLM при экстремальной разреженности путем введения распределения разреженности на уровне измерений. Этот метод имеет важную теоретическую ценность и практическое значение, открывая новое направление исследований в области сжатия больших моделей. Несмотря на некоторые ограничения, его инновационность и эффективность делают его важным вкладом в эту область.