Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
論文ID : 2510.10136タイトル : PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models著者 : Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu(香港中文大学)分類 : cs.LG cs.AI発表会議 : NeurIPS 2025(第39回ニューラル情報処理システム会議)論文リンク : https://arxiv.org/abs/2510.10136 コードリンク : https://github.com/lanchengzou/PermLLM チャネル置換は、重み行列のチャネルを並べ替えることで重要な重みの優先保持を実現し、N:M疎なモデルの精度を向上させる強力な技術である。しかし、従来のチャネル置換方法は手作業で設計された品質指標に依存しており、剪定がモデル性能に与える実際の影響を正確に捉えることができない。この制限に対処するため、本論文ではPermLMを提案する。これは学習可能なチャネル置換(LCP)を導入したN:M疎性後訓練剪定フレームワークである。LCPはSinkhorn正規化を利用して離散置換行列を微分可能なソフト置換行列に変換し、エンドツーエンド最適化を実現する。さらに、PermLLMは効率的なブロック化チャネル置換戦略を採用し、学習可能なパラメータ数と計算複雑度を大幅に削減する。PermLLMは既存のワンショット剪定方法とシームレスに統合され、チャネル置換を適応的に最適化し、剪定による誤差を効果的に緩和する。
中核的な問題 : 従来のチャネル置換方法は手作業で設計された品質指標(重み重要度の合計保持など)を使用して置換スキームを評価するが、これらの指標と実際の剪定誤差の間には乖離がある。重要性 : 大規模言語モデルの規模が急速に成長するにつれ、モデル圧縮技術(剪定など)は効率的な展開に不可欠である。N:M疎性はハードウェアフレンドリー性(NVIDIAスパーステンソルコアのサポート)のため注目されている。既存の制限 :
手作業で設計された品質指標は剪定がモデル性能に与える実際の影響を正確に反映できない 従来の方法は複雑な層間相互作用を十分に捉えられない 最適化空間が巨大である(Cin個の入力チャネルに対して、Cin!種類の可能な置換がある) 論文は具体例(図1)を通じて問題を示す:重要度スコアを最大化するチャネル置換は、より大きな出力誤差をもたらす可能性があり、手作業の指標と実際の性能の間に本質的な相違があることを示している。
学習可能なチャネル置換(LCP)の初提案 : 離散的なチャネル置換問題を微分可能な最適化問題に変換し、エンドツーエンド学習を実現する。Sinkhorn正規化技術 : Sinkhorn正規化を利用して離散置換行列をソフト置換行列に緩和し、置換行列の非微分性の問題を解決する。ブロック化チャネル置換戦略 : パラメータ複雑度をO(C²ᵢₙ)からO(Cᵢₙ×B)に、計算複雑度をO(C³ᵢₙ)からO(Cᵢₙ×B²)に大幅に削減する。汎用フレームワーク設計 : 既存のワンショット剪定方法(Wanda、RIAなど)とシームレスに統合可能。優れた実験成果 : LLaMAシリーズ、Qwen、OPTなど複数のモデルで方法の有効性を検証。事前訓練された重み行列W ∈ R^(Cout×Cin)が与えられたとき、目標は最適な置換行列Pを見つけることである。これにより、並べ替えられた重み行列Ŵ = WPがN:M疎性を適用した後、元の密集モデルとの出力差異を最小化できる。
ハード置換行列Pをソフト置換行列P̂に緩和する:
S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)
ここでTrとTcはそれぞれ行正規化と列正規化操作を表し、τはソフト置換行列の硬度を制御する温度パラメータである。
前向き伝播では、ハンガリアンアルゴリズムを通じてソフト置換行列を厳密な置換行列に硬化させる:
逆伝播では直通推定器(STE)を使用して勾配を近似する:∂P/∂P̂ = 1。
計算複雑度を低減するため、チャネルをサイズBの複数のブロックに分割し、各ブロック内で独立に置換を実行する:
PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB
パラメータ数がC²ᵢₙからCᵢₙ×Bに削減され、計算複雑度がO(C³ᵢₙ)からO(Cᵢₙ×B²)に削減される。
PermLLMは密集モデルと疎なモデルの出力間のコサイン類似度損失を直接最小化する:
Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)
PermLLMは重要度指標に基づくあらゆるワンショット剪定方法と統合可能である。与えられた重要度行列Sに対して、置換後の重要度行列はŜ = SPBであり、マスクは以下の方法で取得される:
argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M
argmaxの非微分性の問題を処理するためにSTEを使用する。
モデル : LLaMA 7B-13B、LLaMA-2 7B-13B、LLaMA-3.1 8B、Qwen-2.5 7B、OPT 6.7Bキャリブレーションデータ : C4データセットから無作為に選択した128サンプル、各サンプルは1024トークンを含む評価タスク :
言語モデリング:Wikitext2(困惑度) ゼロショットタスク:HellaSwag、ARC-Easy/Challenge、OpenBookQA、RTE ベースライン方法 : SparseGPT、Wanda、RIA従来のチャネル置換 : Wanda+CP、RIA+CP本論文の方法 : PermLLMWanda、PermLLMRIAオプティマイザ : AdamW学習率 : {1e-3、5e-3}Sinkhorn反復回数 : 5温度パラメータ : 1から0.1に線形減衰ブロックサイズ : 64訓練時間 : 7Bモデル約2.5時間(4 GPU)、13Bモデル約5.5時間(8 GPU)方法 LLaMA 7B LLaMA-2 7B LLaMA-3.1 8B Qwen-2.5 7B Dense 5.68 5.47 6.24 7.74 Wanda 11.59 12.16 23.42 24.44 Wanda+CP 11.07 11.00 21.09 18.76 PermLLMWanda 9.41 9.39 14.03 13.58 RIA+CP 10.99 10.26 19.80 17.58 PermLLMRIA 9.95 9.60 15.79 15.93
モデル Wanda Wanda+CP PermLLMWanda 改善 LLaMA 7B 41.37 43.94 45.67 +4.3% LLaMA-2 7B 42.12 43.44 46.59 +4.47% LLaMA-3.1 8B 38.91 40.72 43.33 +4.42%
カスタムCUDAコアを使用すると、チャネル置換操作はPyTorch実装と比較して84倍の加速を達成し、全体的な推論速度は約1.67倍向上する。
実験により、Sinkhorn正規化反復回数が5の場合、良好な性能バランスが得られることが示された。
ブロックサイズ 平均精度 Wikitext2困惑度 訓練時間 32 43.58 9.50 2h 64 46.59 9.39 2.5h 128 47.09 9.07 6h
ブロックサイズ64は性能と効率の最適なバランスを提供する。
異なるキャリブレーションデータセット(Pile、Wikitext2、C4)での実験により、方法が良好な堅牢性を持つことが示された。
論文はマスク可視化(図3)を提供し、PermLLMが学習した置換が従来の方法とは異なる重み保持パターンを生成することを示し、エンドツーエンド最適化の有効性を検証している。
構造化剪定 : 粗粒度構造(チャネル、層、ブロック)の除去非構造化剪定 : 最も柔軟だがハードウェア加速が困難半構造化剪定 : N:M疎性は柔軟性とハードウェアフレンドリー性のバランスを取る初期の研究は小規模ネットワークの全数探索に主に焦点を当てている RIAはヒューリスティックなチャネル割り当て方法を提案 本論文は初めて学習可能なエンドツーエンド最適化方法を導入 SR-STEなどの方法はN:M疎なモデルをゼロから訓練 MaskLLMなどの方法は半構造化疎性を学習 本論文は後訓練剪定シナリオに焦点を当てている 方法の有効性 : PermLLMは複数のモデルとタスクで従来のチャネル置換方法を大幅に上回る汎用性 : 既存の剪定方法とシームレスに統合可能実用性 : ブロック化戦略とカスタムCUDAコアにより、実用的な計算効率を実現計算オーバーヘッド : ブロック化戦略により複雑度が大幅に削減されたが、従来の方法と比較してもより多くの計算リソースが必要適用範囲 : 方法は半構造化剪定に特化しており、量化などの他の圧縮タスクへの応用は今後の課題収束性 : 大きなブロックサイズは収束に更多くの反復を必要とする量化などの他のモデル圧縮タスクでの応用を探索 訓練効率をさらに向上させる より効率的な部分層最適化戦略を研究 技術革新性が強い : チャネル置換問題を初めてエンドツーエンド学習可能な問題に変換し、技術ルートが新規理論的基礎が堅実 : Sinkhorn正規化とSTEの組み合わせ使用は理論的に合理的実験が充分 : 複数のモデル、データセット、タスクで包括的な評価を実施エンジニアリング実装が完善 : カスタムCUDAコアを提供し、実際の展開ニーズを考慮執筆が明確 : 論文構造が明確で、技術詳細の説明が正確計算オーバーヘッド : ブロック化戦略があるが、訓練コストは依然として高い理論分析が不足 : 収束性分析と理論的保証が欠ける適用範囲の制限 : 主にN:M疎性に適用でき、汎化性は検証が必要ベースライン比較 : 最新の剪定方法との比較が十分でない学術的価値 : チャネル置換研究に新しい技術パスを開く実用的価値 : 大規模言語モデル圧縮分野に直接的な応用価値がある再現性 : 完全なコード実装と詳細な実験設定を提供大規模言語モデルの展開 : 特にハードウェア加速が必要なN:M疎な展開シナリオに適しているリソース制限環境 : 計算リソースが十分な場合、より高い圧縮品質を追求研究プロトタイプ : さらなる剪定と圧縮研究の技術的基礎を提供論文は66篇の関連文献を引用しており、主に以下を含む:
大規模言語モデルの基礎研究(GPT、LLaMAなど) ネットワーク剪定の古典的方法(Magnitude Pruning、SparseGPTなど) N:M疎性関連研究(RIA、SR-STEなど) 最適化理論の基礎(Sinkhorn正規化、ハンガリアンアルゴリズムなど) 総合評価 : これは技術革新性が強く、実験が充分で、エンジニアリング実装が完善された高品質な論文である。離散最適化問題を連続最適化問題に変換することで、チャネル置換技術に革新的な進歩をもたらした。計算オーバーヘッドと適用範囲の制限があるが、大規模言語モデル圧縮分野への貢献は顕著であり、学術的価値と実用的価値が重要である。