2025-11-17T08:49:21.061208

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

Zou, Yin, Pei et al.

Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.

academic

PermLLM: Обучаемая перестановка каналов для N:M разреженных больших языковых моделей

Основная информация

ID статьи: 2510.10136
Название: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Авторы: Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu (Китайский университет Гонконга)
Классификация: cs.LG cs.AI
Конференция: NeurIPS 2025 (39-я конференция по системам обработки нейронной информации)
Ссылка на статью: https://arxiv.org/abs/2510.10136
Ссылка на код: https://github.com/lanchengzou/PermLLM

Аннотация

Перестановка каналов — это мощный метод повышения точности N:M разреженных моделей путём переупорядочивания каналов матриц весов для приоритизации сохранения важных весов. Однако традиционные методы перестановки каналов полагаются на ручные метрики качества, которые часто не могут точно отразить реальное влияние обрезки на производительность модели. Для решения этого ограничения в статье предлагается PermLLM — структура постобучающей обрезки N:M разреженности с введением обучаемой перестановки каналов (LCP). LCP использует нормализацию Синхорна для преобразования дискретной матрицы перестановки в дифференцируемую мягкую матрицу перестановки, обеспечивая сквозную оптимизацию. Кроме того, PermLLM применяет эффективную стратегию блочной перестановки каналов, значительно снижая количество обучаемых параметров и вычислительную сложность. PermLLM беспрепятственно интегрируется с существующими методами одноразовой обрезки, адаптивно оптимизируя перестановку каналов и эффективно смягчая ошибки, вызванные обрезкой.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема: Традиционные методы перестановки каналов используют ручные метрики качества (такие как сумма важности сохраняемых весов) для оценки схем перестановки, но существует разрыв между этими метриками и фактической ошибкой обрезки.
Значимость: С быстрым ростом масштабов больших языковых моделей методы сжатия моделей (такие как обрезка) становятся критичными для эффективного развёртывания. N:M разреженность привлекает внимание благодаря аппаратной дружественности (поддержка NVIDIA Sparse Tensor Core).
Существующие ограничения:
- Ручные метрики качества не могут точно отражать реальное влияние обрезки на производительность модели
- Традиционные методы не могут полностью захватить сложные межслойные взаимодействия
- Пространство оптимизации огромно (для Cin входных каналов существует Cin! возможных перестановок)

Исследовательская мотивация

Статья демонстрирует проблему на конкретном примере (рисунок 1): перестановка каналов, максимизирующая оценки важности, может привести к большей ошибке на выходе, что указывает на фундаментальное различие между ручными метриками и фактической производительностью.

Основные вклады

Первое предложение обучаемой перестановки каналов (LCP): Преобразование дискретной задачи перестановки каналов в дифференцируемую задачу оптимизации, обеспечивающее сквозное обучение.
Технология нормализации Синхорна: Использование нормализации Синхорна для релаксации дискретной матрицы перестановки в мягкую матрицу перестановки, решение проблемы недифференцируемости матрицы перестановки.
Стратегия блочной перестановки каналов: Значительное снижение сложности параметров с O(C²ᵢₙ) до O(Cᵢₙ×B), вычислительной сложности с O(C³ᵢₙ) до O(Cᵢₙ×B²).
Универсальная конструкция структуры: Беспрепятственная интеграция с существующими методами одноразовой обрезки (Wanda, RIA и т.д.).
Превосходные экспериментальные результаты: Проверка эффективности метода на множестве моделей, включая серию LLaMA, Qwen, OPT и другие.

Подробное описание метода

Определение задачи

Для предварительно обученной матрицы весов W ∈ R^(Cout×Cin) целью является нахождение оптимальной матрицы перестановки P такой, что переупорядоченная матрица весов Ŵ = WP после применения N:M разреженности минимизирует различие выходных данных с исходной плотной моделью.

Архитектура основной технологии

1. Релаксация мягкой матрицы перестановки

Релаксация жёсткой матрицы перестановки P в мягкую матрицу перестановки P̂:

S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)

где Tr и Tc обозначают операции нормализации по строкам и столбцам соответственно, τ — параметр температуры, контролирующий жёсткость мягкой матрицы перестановки.

2. Процесс затвердевания и приближение градиента

При прямом проходе мягкая матрица перестановки затвердевает в строгую матрицу перестановки с помощью венгерского алгоритма:

P = argmax P∈P Tr(P⊤P̂)

При обратном проходе градиент приближается с помощью оценщика прямого прохода (STE): ∂P/∂P̂ = 1.

3. Блочная перестановка каналов

Для снижения вычислительной сложности каналы разделяются на несколько блоков размером B, и перестановка выполняется независимо в каждом блоке:

PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB

Количество параметров снижается с C²ᵢₙ до Cᵢₙ×B, вычислительная сложность снижается с O(C³ᵢₙ) до O(Cᵢₙ×B²).

Цель оптимизации

PermLLM непосредственно минимизирует потери косинусного сходства между выходными данными плотной и разреженной моделей:

Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)

Интеграция с существующими методами обрезки

PermLLM может быть интегрирован с любым методом одноразовой обрезки на основе метрик важности. Для заданной матрицы важности S переупорядоченная матрица важности имеет вид Ŝ = SPB, маска получается следующим образом:

argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M

Используется STE для обработки недифференцируемости argmax.

Экспериментальная установка

Наборы данных и модели

Модели: LLaMA 7B-13B, LLaMA-2 7B-13B, LLaMA-3.1 8B, Qwen-2.5 7B, OPT 6.7B
Данные калибровки: 128 случайно выбранных образцов из набора данных C4, каждый содержит 1024 токена
Задачи оценки:
- Языковое моделирование: Wikitext2 (недоумение)
- Задачи с нулевым примером: HellaSwag, ARC-Easy/Challenge, OpenBookQA, RTE

Методы сравнения

Базовые методы: SparseGPT, Wanda, RIA
Традиционная перестановка каналов: Wanda+CP, RIA+CP
Метод авторов: PermLLMWanda, PermLLMRIA

Детали реализации

Оптимизатор: AdamW
Скорость обучения: {1e-3, 5e-3}
Количество итераций Синхорна: 5
Параметр температуры: линейное затухание от 1 до 0.1
Размер блока: 64
Время обучения: примерно 2.5 часа для модели 7B (4 GPU), примерно 5.5 часов для модели 13B (8 GPU)

Экспериментальные результаты

Основные результаты

Производительность языкового моделирования (недоумение Wikitext2)

Метод	LLaMA 7B	LLaMA-2 7B	LLaMA-3.1 8B	Qwen-2.5 7B
Dense	5.68	5.47	6.24	7.74
Wanda	11.59	12.16	23.42	24.44
Wanda+CP	11.07	11.00	21.09	18.76
PermLLMWanda	9.41	9.39	14.03	13.58
RIA+CP	10.99	10.26	19.80	17.58
PermLLMRIA	9.95	9.60	15.79	15.93

Средняя точность задач с нулевым примером

Модель	Wanda	Wanda+CP	PermLLMWanda	Улучшение
LLaMA 7B	41.37	43.94	45.67	+4.3%
LLaMA-2 7B	42.12	43.44	46.59	+4.47%
LLaMA-3.1 8B	38.91	40.72	43.33	+4.42%

Эффект ускорения вывода

Используя пользовательское ядро CUDA, операция перестановки каналов достигает 84-кратного ускорения по сравнению с реализацией PyTorch, общая скорость вывода улучшается примерно на 1.67×.

Исследование абляции

Влияние количества итераций нормализации Синхорна

Эксперименты показывают, что количество итераций нормализации Синхорна, равное 5, обеспечивает хороший баланс производительности.

Влияние размера блока

Размер блока	Средняя точность	Недоумение Wikitext2	Время обучения
32	43.58	9.50	2h
64	46.59	9.39	2.5h
128	47.09	9.07	6h

Размер блока 64 обеспечивает оптимальный баланс между производительностью и эффективностью.

Робастность набора данных калибровки

Эксперименты на различных наборах данных калибровки (Pile, Wikitext2, C4) демонстрируют хорошую робастность метода.

Анализ случаев

Статья предоставляет визуализацию маски (рисунок 3), показывающую, что перестановка, изученная PermLLM, создаёт различные модели сохранения весов по сравнению с традиционными методами, подтверждая эффективность сквозной оптимизации.

Связанные работы

Обрезка больших языковых моделей

Структурированная обрезка: Удаление крупнозернистых структур (каналы, слои, блоки)
Неструктурированная обрезка: Наиболее гибкая, но сложная для аппаратного ускорения
Полуструктурированная обрезка: N:M разреженность балансирует гибкость и аппаратную дружественность

Технология перестановки каналов

Ранние работы в основном сосредоточены на исчерпывающем поиске для небольших сетей
RIA предложила эвристический метод распределения каналов
Данная статья впервые вводит обучаемый метод сквозной оптимизации

Обучение N:M разреженности

Методы, такие как SR-STE, обучают N:M разреженные модели с нуля
Методы, такие как MaskLLM, обучают полуструктурированную разреженность
Данная статья сосредоточена на сценарии постобучающей обрезки

Заключение и обсуждение

Основные выводы

Эффективность метода: PermLLM значительно превосходит традиционные методы перестановки каналов на множестве моделей и задач
Универсальность: Может беспрепятственно интегрироваться с существующими методами обрезки
Практичность: Через стратегию блочности и пользовательское ядро CUDA достигнута практическая вычислительная эффективность

Ограничения

Вычислительные затраты: Несмотря на значительное снижение сложности благодаря стратегии блочности, требуется больше вычислительных ресурсов по сравнению с традиционными методами
Область применения: Метод специально разработан для полуструктурированной обрезки, применение к другим задачам сжатия (таким как квантизация) требует дальнейшего изучения
Сходимость: Большие размеры блоков требуют больше итераций для сходимости

Будущие направления

Исследование применения в других задачах сжатия моделей, таких как квантизация
Дальнейшее повышение эффективности обучения
Изучение более эффективных стратегий оптимизации отдельных слоёв

Глубокая оценка

Преимущества

Сильная техническая инновативность: Впервые преобразование задачи перестановки каналов в сквозную обучаемую задачу, новый технический подход
Прочная теоретическая база: Комбинированное использование нормализации Синхорна и STE теоретически обоснованно
Полные эксперименты: Комплексная оценка на множестве моделей, наборов данных и задач
Совершенная инженерная реализация: Предоставление пользовательского ядра CUDA, учёт практических требований развёртывания
Ясное изложение: Чёткая структура статьи, точное описание технических деталей

Недостатки

Вычислительные затраты: Хотя существует стратегия блочности, стоимость обучения остаётся высокой
Недостаточный теоретический анализ: Отсутствие анализа сходимости и теоретических гарантий
Ограниченная область применения: Главным образом применимо к N:M разреженности, универсальность требует проверки
Недостаточное сравнение с базовыми методами: Сравнение с некоторыми новейшими методами обрезки недостаточно полно

Влияние

Академическая ценность: Открытие нового технического пути для исследования перестановки каналов
Практическая ценность: Прямое применение в области сжатия больших языковых моделей
Воспроизводимость: Предоставление полной реализации кода и подробных экспериментальных установок

Применимые сценарии

Развёртывание больших языковых моделей: Особенно подходит для сценариев развёртывания N:M разреженности, требующих аппаратного ускорения
Среды с ограниченными ресурсами: При достаточных вычислительных ресурсах для достижения более высокого качества сжатия
Исследовательские прототипы: Предоставление технической основы для дальнейших исследований обрезки и сжатия

Библиография

Статья цитирует 66 связанных работ, охватывающих главным образом:

Фундаментальные работы по большим языковым моделям (GPT, LLaMA и т.д.)
Классические методы обрезки сетей (Magnitude Pruning, SparseGPT и т.д.)
Исследования, связанные с N:M разреженностью (RIA, SR-STE и т.д.)
Теоретические основы оптимизации (нормализация Синхорна, венгерский алгоритм и т.д.)

Общая оценка: Это высококачественная статья с сильной технической инновативностью, полными экспериментами и совершенной инженерной реализацией. Путём преобразования дискретной задачи оптимизации в непрерывную задачу оптимизации она достигает прорывного прогресса в технологии перестановки каналов. Несмотря на ограничения в вычислительных затратах и области применения, её вклад в область сжатия больших языковых моделей является значительным и обладает важной академической и практической ценностью.