PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
Zou, Yin, Pei et al.
Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
academic
PermLLM: تعديل القنوات القابل للتعلم لنماذج اللغات الكبيرة شبه المتفرقة N:M
يعتبر تعديل القنوات تقنية قوية لتحسين دقة نماذج N:M المتفرقة من خلال إعادة ترتيب قنوات مصفوفات الأوزان للحفاظ على الأوزان المهمة بأولوية. ومع ذلك، تعتمد طرق تعديل القنوات التقليدية على مقاييس جودة مصممة يدويًا، والتي غالبًا ما تفشل في التقاط التأثير الحقيقي للقص على أداء النموذج. لمعالجة هذا القيد، تقترح هذه الورقة PermLLM، وهو إطار عمل لقص ما بعد التدريب للتفرق N:M يقدم تعديل القنوات القابل للتعلم (LCP). يستفيد LCP من تطبيع Sinkhorn لتحويل مصفوفات التعديل المنفصلة إلى مصفوفات تعديل ناعمة قابلة للاشتقاق، مما يتيح التحسين من طرف إلى طرف. بالإضافة إلى ذلك، يعتمد PermLLM على استراتيجية تعديل قنوات مقسمة فعالة، مما يقلل بشكل كبير من عدد المعاملات القابلة للتعلم والتعقيد الحسابي. يتكامل PermLLM بسلاسة مع طرق القص لمرة واحدة الموجودة، مما يحسّن تعديل القنوات بشكل تكيفي ويخفف بشكل فعال من الأخطاء الناجمة عن القص.
المشكلة الأساسية: تستخدم طرق تعديل القنوات التقليدية مقاييس جودة مصممة يدويًا (مثل مجموع أهمية الأوزان المحفوظة) لتقييم خطط التعديل، لكن هناك فجوة بين هذه المقاييس والخطأ الفعلي للقص.
الأهمية: مع النمو السريع لحجم نماذج اللغات الكبيرة، تعتبر تقنيات ضغط النموذج (مثل القص) ضرورية للنشر الفعال. يحظى التفرق N:M باهتمام كبير لأنه صديق للأجهزة (يدعمه NVIDIA Sparse Tensor Core).
القيود الموجودة:
لا تعكس المقاييس المصممة يدويًا بدقة تأثير القص على أداء النموذج
لا تستطيع الطرق التقليدية التقاط التفاعلات المعقدة بين الطبقات بشكل كامل
مساحة التحسين ضخمة (بالنسبة لـ Cin قناة إدخال، هناك Cin! تعديل ممكن)
توضح الورقة المشكلة من خلال مثال محدد (الشكل 1): قد يؤدي تعديل القنوات الذي يزيد من درجات الأهمية إلى خطأ إخراج أكبر، مما يشير إلى وجود فرق جوهري بين المقاييس اليدوية والأداء الفعلي.
بالنظر إلى مصفوفة أوزان مدربة مسبقًا W ∈ R^(Cout×Cin)، الهدف هو إيجاد مصفوفة التعديل الأمثل P بحيث تقلل مصفوفة الأوزان المعاد ترتيبها Ŵ = WP من الفرق مع النموذج الكثيف الأصلي بعد تطبيق التفرق N:M.
يمكن دمج PermLLM مع أي طريقة قص لمرة واحدة قائمة على مقياس الأهمية. بالنسبة لمصفوفة أهمية معينة S، تصبح مصفوفة الأهمية المعدلة Ŝ = SPB، ويتم الحصول على القناع من خلال:
توفر الورقة تصورًا للأقنعة (الشكل 3)، مما يوضح أن التعديل المتعلم بواسطة PermLLM ينتج عنه أنماط احتفاظ بالأوزان مختلفة عن الطرق التقليدية، مما يتحقق من فعالية التحسين من طرف إلى طرف.
تستشهد الورقة بـ 66 مرجعًا ذا صلة، تغطي بشكل أساسي:
الأعمال الأساسية لنماذج اللغات الكبيرة (GPT و LLaMA وغيرها)
الطرق الكلاسيكية لقص الشبكات (Magnitude Pruning و SparseGPT وغيرها)
الأبحاث المتعلقة بالتفرق N:M (RIA و SR-STE وغيرها)
أساسيات نظرية التحسين (تطبيع Sinkhorn وخوارزمية المجر وغيرها)
التقييم الشامل: هذه ورقة عالية الجودة تتمتع بابتكار تقني قوي وتجارب شاملة وتنفيذ هندسي متقن. من خلال تحويل مشكلة التحسين المنفصلة إلى مشكلة تحسين مستمرة، حققت تقدمًا حقيقيًا في تقنية تعديل القنوات. على الرغم من وجود قيود في التكلفة الحسابية ونطاق التطبيق، فإن مساهمتها في مجال ضغط نماذج اللغات الكبيرة كبيرة وذات قيمة أكاديمية وعملية مهمة.