PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Zou, Yin, Pei et al.
Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
academic
PermLLM: Обучаемая перестановка каналов для N:M разреженных больших языковых моделей
Перестановка каналов — это мощный метод повышения точности N:M разреженных моделей путём переупорядочивания каналов матриц весов для приоритизации сохранения важных весов. Однако традиционные методы перестановки каналов полагаются на ручные метрики качества, которые часто не могут точно отразить реальное влияние обрезки на производительность модели. Для решения этого ограничения в статье предлагается PermLLM — структура постобучающей обрезки N:M разреженности с введением обучаемой перестановки каналов (LCP). LCP использует нормализацию Синхорна для преобразования дискретной матрицы перестановки в дифференцируемую мягкую матрицу перестановки, обеспечивая сквозную оптимизацию. Кроме того, PermLLM применяет эффективную стратегию блочной перестановки каналов, значительно снижая количество обучаемых параметров и вычислительную сложность. PermLLM беспрепятственно интегрируется с существующими методами одноразовой обрезки, адаптивно оптимизируя перестановку каналов и эффективно смягчая ошибки, вызванные обрезкой.
Основная проблема: Традиционные методы перестановки каналов используют ручные метрики качества (такие как сумма важности сохраняемых весов) для оценки схем перестановки, но существует разрыв между этими метриками и фактической ошибкой обрезки.
Значимость: С быстрым ростом масштабов больших языковых моделей методы сжатия моделей (такие как обрезка) становятся критичными для эффективного развёртывания. N:M разреженность привлекает внимание благодаря аппаратной дружественности (поддержка NVIDIA Sparse Tensor Core).
Существующие ограничения:
Ручные метрики качества не могут точно отражать реальное влияние обрезки на производительность модели
Традиционные методы не могут полностью захватить сложные межслойные взаимодействия
Пространство оптимизации огромно (для Cin входных каналов существует Cin! возможных перестановок)
Статья демонстрирует проблему на конкретном примере (рисунок 1): перестановка каналов, максимизирующая оценки важности, может привести к большей ошибке на выходе, что указывает на фундаментальное различие между ручными метриками и фактической производительностью.
Первое предложение обучаемой перестановки каналов (LCP): Преобразование дискретной задачи перестановки каналов в дифференцируемую задачу оптимизации, обеспечивающее сквозное обучение.
Технология нормализации Синхорна: Использование нормализации Синхорна для релаксации дискретной матрицы перестановки в мягкую матрицу перестановки, решение проблемы недифференцируемости матрицы перестановки.
Стратегия блочной перестановки каналов: Значительное снижение сложности параметров с O(C²ᵢₙ) до O(Cᵢₙ×B), вычислительной сложности с O(C³ᵢₙ) до O(Cᵢₙ×B²).
Универсальная конструкция структуры: Беспрепятственная интеграция с существующими методами одноразовой обрезки (Wanda, RIA и т.д.).
Превосходные экспериментальные результаты: Проверка эффективности метода на множестве моделей, включая серию LLaMA, Qwen, OPT и другие.
Для предварительно обученной матрицы весов W ∈ R^(Cout×Cin) целью является нахождение оптимальной матрицы перестановки P такой, что переупорядоченная матрица весов Ŵ = WP после применения N:M разреженности минимизирует различие выходных данных с исходной плотной моделью.
где Tr и Tc обозначают операции нормализации по строкам и столбцам соответственно, τ — параметр температуры, контролирующий жёсткость мягкой матрицы перестановки.
PermLLM может быть интегрирован с любым методом одноразовой обрезки на основе метрик важности. Для заданной матрицы важности S переупорядоченная матрица важности имеет вид Ŝ = SPB, маска получается следующим образом:
argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M
Используется STE для обработки недифференцируемости argmax.
Используя пользовательское ядро CUDA, операция перестановки каналов достигает 84-кратного ускорения по сравнению с реализацией PyTorch, общая скорость вывода улучшается примерно на 1.67×.
Статья предоставляет визуализацию маски (рисунок 3), показывающую, что перестановка, изученная PermLLM, создаёт различные модели сохранения весов по сравнению с традиционными методами, подтверждая эффективность сквозной оптимизации.
Вычислительные затраты: Несмотря на значительное снижение сложности благодаря стратегии блочности, требуется больше вычислительных ресурсов по сравнению с традиционными методами
Область применения: Метод специально разработан для полуструктурированной обрезки, применение к другим задачам сжатия (таким как квантизация) требует дальнейшего изучения
Сходимость: Большие размеры блоков требуют больше итераций для сходимости
Статья цитирует 66 связанных работ, охватывающих главным образом:
Фундаментальные работы по большим языковым моделям (GPT, LLaMA и т.д.)
Классические методы обрезки сетей (Magnitude Pruning, SparseGPT и т.д.)
Исследования, связанные с N:M разреженностью (RIA, SR-STE и т.д.)
Теоретические основы оптимизации (нормализация Синхорна, венгерский алгоритм и т.д.)
Общая оценка: Это высококачественная статья с сильной технической инновативностью, полными экспериментами и совершенной инженерной реализацией. Путём преобразования дискретной задачи оптимизации в непрерывную задачу оптимизации она достигает прорывного прогресса в технологии перестановки каналов. Несмотря на ограничения в вычислительных затратах и области применения, её вклад в область сжатия больших языковых моделей является значительным и обладает важной академической и практической ценностью.