Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
- ID статьи: 2505.16743
- Название: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
- Авторы: Florentin Beck (Университет Тюбингена), William Rudman (Техасский университет в Остине), Carsten Eickhoff (Университет Тюбингена)
- Классификация: cs.CL cs.AI cs.LG
- Дата публикации: 11 октября 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2505.16743
- Ссылка на код: https://github.com/flobk/TRIM
Большие языковые модели (LLM) создают огромные вычислительные и память́ные вызовы из-за своего огромного размера параметров, что делает сокращение модели критически важным для их эффективного развертывания. Существующие методы одноразового сокращения обычно применяют единые ограничения разреженности между слоями или внутри слоев и показывают плохие результаты при высоких коэффициентах разреженности. В этой статье предлагается TRIM (Targeted Row-wise Iterative Metric-driven pruning) — новый метод, применяющий различные коэффициенты разреженности к отдельным выходным измерениям (строкам) внутри каждого слоя. TRIM использует итеративный процесс корректировки, управляемый метриками качества, для оптимизации распределения разреженности на уровне измерений, сосредоточиваясь на снижении дисперсии сохранения качества между выходами для сохранения критической информации. TRIM легко интегрируется с существующими стратегиями сокращения на уровне слоев. Оценка перплексии и нулевых задач на нескольких семействах LLM (Qwen2.5, LLaMA-2 и OPT) и уровнях разреженности показывает, что TRIM достигает новых результатов, превосходящих предыдущие, и повышает стабильность. Например, при 80% разреженности TRIM снижает перплексию Qwen2.5-14B на 48% и перплексию OPT-13B более чем на 90% по сравнению с методами-базовыми линиями.
По мере экспоненциального роста размера параметров больших языковых моделей развертывание моделей сталкивается с серьезными проблемами памяти и вычислительных ресурсов. Хотя рост параметров приводит к повышению производительности и возникающим способностям, он также затрудняет вывод в средах с ограниченными ресурсами.
- Единые ограничения разреженности: Существующие методы одноразового сокращения (такие как Wanda, OWL, AlphaPruning) обычно применяют одинаковый коэффициент разреженности ко всем слоям или всем выходным измерениям внутри слоя
- Резкое снижение производительности при высокой разреженности: При экстремальной разреженности (>70%) единые стратегии приводят к значительному ухудшению производительности
- Игнорирование гетерогенности измерений: Существуют значительные различия в чувствительности и важности различных выходных измерений к сокращению
В статье отмечается, что LLM обладают уникальными характеристиками весов и активаций, такими как выраженные выбросы и высоко асимметричные распределения активаций. Эти характеристики указывают на то, что различные выходные измерения внутри слоя имеют различную чувствительность к сокращению, поэтому требуется более детальная стратегия распределения разреженности.
- Первое распределение разреженности на уровне измерений: Предложен первый алгоритм для расчета различных коэффициентов разреженности для отдельных выходных измерений внутри каждого слоя
- Производительность SOTA при экстремальной разреженности: При 80% разреженности значительно снижает перплексию по сравнению с существующими методами (Qwen2.5-14B на 48%, OPT-13B более чем на 90%)
- Углубленный эмпирический анализ: Выявляет гетерогенность выходных измерений в отношении чувствительности к сокращению и важности для нижестоящих задач
- Универсальный дизайн: TRIM может быть интегрирован с любым алгоритмом сокращения на основе оценки важности с хорошей универсальностью
Для матрицы весов W ∈ R^(D×N), где D — количество выходных измерений, N — количество входных измерений, целью является определение оптимального коэффициента разреженности Si для каждого выходного измерения Wi,:, чтобы максимизировать общее качество слоя при соблюдении ограничения среднего коэффициента разреженности.
TRIM определяет вектор разреженности на уровне измерений S = S1, S2, ..., SD, где Si ∈ 0,1 указывает целевой коэффициент разреженности для i-го выходного измерения. Ограничение:
где T — целевой коэффициент разреженности слоя.
Алгоритм 1: Итеративная корректировка разреженности по измерениям
- Инициализация: Вычисление несокращенного выхода Y ← WX, инициализация Si = T (равномерное распределение)
- Итеративная оптимизация (K итераций):
- Сокращение на основе текущего S для получения Wpruned
- Вычисление сокращенного выхода Ŷ ← WprunedX
- Оценка общего качества qk ← Qmetric(Y, Ŷ)
- Обновление оптимальной конфигурации (если qk > qbest)
- Вычисление качества каждого измерения ci ← QmetricDimwise(Yi,:, Ŷi,:)
- Нормализация оценок качества в диапазон 0,1
- Корректировка коэффициентов разреженности на основе скорости обучения α: δi ← αc'i
- Перецентрирование для сохранения среднего ограничения: Si ← δi - (1/D)Σδj + T
- Возврат: Оптимальное распределение разреженности Sbest
- Качество на уровне слоя: Использование косинусного сходства для оценки качества сокращения всего слоя
- Качество на уровне измерений: Вычисление косинусного сходства для каждого выходного измерения для направления корректировки коэффициента разреженности
- Адаптивная скорость обучения: Поддержка положительных и отрицательных скоростей обучения; положительная скорость обучения снижает дисперсию качества, отрицательная скорость подходит для слоев с концентрированными выбросами
- Минимизация дисперсии качества: Повышение общей производительности путем снижения дисперсии деградации качества между измерениями
- Дизайн совместимости: Может быть интегрирован с существующими правилами оценки (Wanda, Magnitude, SparseGPT, GBLM)
- Модели: Qwen2.5 (3B/7B/14B/32B/72B), LLaMA-2 (7B/13B), OPT (6.7B/13B)
- Данные оценки: Набор валидации WikiText (перплексия), C4 и Pile (проверка обобщаемости)
- Нижестоящие задачи: BoolQ, RTE, HellaSwag, WinoGrande, ARC Easy/Challenge, OpenBookQA
- Перплексия: Оценка способности языкового моделирования на наборе валидации WikiText
- Точность при нулевых примерах: Средняя производительность на 7 нижестоящих задачах
- Методы-базовые линии: OWL, AlphaPruning (на основе Wanda)
- Исследование абляции: Влияние различных метрик качества, параметров скорости обучения, количества итераций
- Образцы калибровки: Случайно выбранные из набора данных C4, длина последовательности 2048
- Ограничения разреженности: Максимум 95% для одного измерения для предотвращения переобучения
- Гиперпараметры: K=10 итераций, скорость обучения α определяется поиском по сетке
| Модель | Базовая линия OWL | OWL+TRIM | Улучшение |
|---|
| Qwen2.5-14B | 348.48 | 180.67 | -48% |
| OPT-13B | 6461.43 | 324.14 | -95% |
| LLaMA-2-13B | 225.04 | 154.83 | -31% |
TRIM достигает повышения производительности на всех протестированных моделях и уровнях разреженности, с средним улучшением на 0,46-0,65 процентных пункта при 80% разреженности.
- Качество на уровне слоя: Косинусное сходство показывает наиболее стабильные результаты
- Качество на уровне измерений: Косинусное сходство более надежно по сравнению с MSE и PSNR
TRIM показывает улучшения при различных правилах оценки (Magnitude, SparseGPT, GBLM), подтверждая универсальность метода.
Анализ коэффициента Джини выявляет значительные различия в концентрации оценок важности различных выходных измерений, приводящие к различной чувствительности к сокращению.
По мере увеличения коэффициента разреженности деградация качества ускоряется, что делает детальное распределение еще более важным.
Эксперименты показывают огромные различия в влиянии полного удаления отдельных измерений:
- Измерение с минимальной нормой L2: перплексия увеличивается только на 0,16
- Измерение с максимальной нормой L2: перплексия резко возрастает до 273,10
- Методы на основе градиента: SNIP, GraSP, SynFlow и др., требуют информации о градиентах и переобучения
- Методы одноразового сокращения: SparseGPT, Wanda и др., не требуют переобучения, но имеют ограниченную производительность
- Методы адаптации на уровне слоев: OWL, AlphaPruning и др., распределяют различные коэффициенты разреженности разным слоям
TRIM — первый метод, выполняющий распределение разреженности на уровне измерений внутри слоя, заполняя пробел в детальном управлении существующих методов.
- Необходимость распределения разреженности на уровне измерений: При экстремальной разреженности детальное управление критически важно для сохранения производительности модели
- Эффективность минимизации дисперсии качества: Балансировка деградации качества между измерениями значительно повышает общую производительность
- Универсальность метода: TRIM может быть интегрирован с различными существующими алгоритмами сокращения с хорошей расширяемостью
- Сложность выбора скорости обучения: Слои с концентрированными выбросами требуют отрицательной скорости обучения, что усложняет настройку гиперпараметров
- Неструктурированная разреженность: Текущий метод не поддерживает напрямую структурированные паттерны разреженности, такие как n:m
- Вычислительные затраты: Итеративный процесс увеличивает время выполнения примерно на 8%
- Поддержка структурированной разреженности: Расширение TRIM для поддержки дружественных к оборудованию паттернов разреженности
- Автоматический выбор скорости обучения: Разработка адаптивных механизмов для снижения требований к настройке гиперпараметров
- Теоретический анализ: Установление теоретической базы для важности измерений и чувствительности к сокращению
- Высокая инновационность: Впервые предложено распределение разреженности на уровне измерений с новой идеей
- Достаточные эксперименты: Метод проверен на нескольких семействах моделей и задачах
- Теоретическая поддержка: Углубленный анализ выявляет фундаментальные причины эффективности метода
- Высокая практическая ценность: Универсальный дизайн облегчает интеграцию в существующие системы
- Сложность метода: Увеличивает сложность алгоритма и количество гиперпараметров по сравнению с методами-базовыми линиями
- Адаптация к оборудованию: Неструктурированная разреженность ограничивает эффект ускорения на специализированном оборудовании
- Недостаточный теоретический анализ: Отсутствуют теоретические гарантии оптимального распределения разреженности
- Академический вклад: Предоставляет новое направление исследований в области сокращения LLM
- Практическая ценность: Имеет важное значение для развертывания больших моделей в средах с ограниченными ресурсами
- Воспроизводимость: Предоставляется открытый исходный код для облегчения последующих исследований
- Требования экстремальной разреженности: Особенно подходит для сценариев, требующих >70% разреженности
- Среды с ограниченными ресурсами: Граничные устройства, мобильные платформы и другие сценарии с ограниченными вычислительными ресурсами
- Исследовательские цели: Предоставляет новые ориентиры и идеи для исследования алгоритмов сокращения
В статье цитируются важные работы в области сокращения, включая:
- Классические методы сокращения: Le Cun et al. (1989), Han et al. (2015)
- Современное сокращение LLM: Sun et al. (2024) Wanda, Frantar and Alistarh (2023) SparseGPT
- Методы адаптации на уровне слоев: Yin et al. (2024) OWL, Lu et al. (2024) AlphaPruning
Резюме: TRIM значительно повышает производительность сокращения LLM при экстремальной разреженности путем введения распределения разреженности на уровне измерений. Этот метод имеет важную теоретическую ценность и практическое значение, открывая новое направление исследований в области сжатия больших моделей. Несмотря на некоторые ограничения, его инновационность и эффективность делают его важным вкладом в эту область.