2025-11-17T08:49:21.061208

PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models

Zou, Yin, Pei et al.
Channel permutation is a powerful technique for enhancing the accuracy of N:M sparse models by reordering the channels of weight matrices to prioritize the retention of important weights. However, traditional channel permutation methods rely on handcrafted quality metrics, which often fail to accurately capture the true impact of pruning on model performance. To address this limitation, we propose PermLLM, a novel post-training pruning framework that introduces learnable channel permutation (LCP) for N:M sparsity. LCP leverages Sinkhorn normalization to transform discrete permutation matrices into differentiable soft permutation matrices, enabling end-to-end optimization. Additionally, PermLLM incorporates an efficient block-wise channel permutation strategy, which significantly reduces the number of learnable parameters and computational complexity. PermLLM seamlessly integrates with existing one-shot pruning methods to adaptively optimize channel permutations, effectively mitigating pruning-induced errors. Extensive experiments on the LLaMA series, Qwen, and OPT models demonstrate that PermLLM achieves superior performance in optimizing N:M sparse models. The code is available at https://github.com/lanchengzou/PermLLM.
academic

PermLLM: تعديل القنوات القابل للتعلم لنماذج اللغات الكبيرة شبه المتفرقة N:M

المعلومات الأساسية

  • معرّف الورقة: 2510.10136
  • العنوان: PermLLM: Learnable Channel Permutation for N:M Sparse Large Language Models
  • المؤلفون: Lancheng Zou, Shuo Yin, Zehua Pei, Tsung-Yi Ho, Farzan Farnia, Bei Yu (جامعة هونج كونج الصينية)
  • التصنيف: cs.LG cs.AI
  • المؤتمر: NeurIPS 2025 (المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية)
  • رابط الورقة: https://arxiv.org/abs/2510.10136
  • رابط الكود: https://github.com/lanchengzou/PermLLM

الملخص

يعتبر تعديل القنوات تقنية قوية لتحسين دقة نماذج N:M المتفرقة من خلال إعادة ترتيب قنوات مصفوفات الأوزان للحفاظ على الأوزان المهمة بأولوية. ومع ذلك، تعتمد طرق تعديل القنوات التقليدية على مقاييس جودة مصممة يدويًا، والتي غالبًا ما تفشل في التقاط التأثير الحقيقي للقص على أداء النموذج. لمعالجة هذا القيد، تقترح هذه الورقة PermLLM، وهو إطار عمل لقص ما بعد التدريب للتفرق N:M يقدم تعديل القنوات القابل للتعلم (LCP). يستفيد LCP من تطبيع Sinkhorn لتحويل مصفوفات التعديل المنفصلة إلى مصفوفات تعديل ناعمة قابلة للاشتقاق، مما يتيح التحسين من طرف إلى طرف. بالإضافة إلى ذلك، يعتمد PermLLM على استراتيجية تعديل قنوات مقسمة فعالة، مما يقلل بشكل كبير من عدد المعاملات القابلة للتعلم والتعقيد الحسابي. يتكامل PermLLM بسلاسة مع طرق القص لمرة واحدة الموجودة، مما يحسّن تعديل القنوات بشكل تكيفي ويخفف بشكل فعال من الأخطاء الناجمة عن القص.

الخلفية البحثية والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تستخدم طرق تعديل القنوات التقليدية مقاييس جودة مصممة يدويًا (مثل مجموع أهمية الأوزان المحفوظة) لتقييم خطط التعديل، لكن هناك فجوة بين هذه المقاييس والخطأ الفعلي للقص.
  2. الأهمية: مع النمو السريع لحجم نماذج اللغات الكبيرة، تعتبر تقنيات ضغط النموذج (مثل القص) ضرورية للنشر الفعال. يحظى التفرق N:M باهتمام كبير لأنه صديق للأجهزة (يدعمه NVIDIA Sparse Tensor Core).
  3. القيود الموجودة:
    • لا تعكس المقاييس المصممة يدويًا بدقة تأثير القص على أداء النموذج
    • لا تستطيع الطرق التقليدية التقاط التفاعلات المعقدة بين الطبقات بشكل كامل
    • مساحة التحسين ضخمة (بالنسبة لـ Cin قناة إدخال، هناك Cin! تعديل ممكن)

دافع البحث

توضح الورقة المشكلة من خلال مثال محدد (الشكل 1): قد يؤدي تعديل القنوات الذي يزيد من درجات الأهمية إلى خطأ إخراج أكبر، مما يشير إلى وجود فرق جوهري بين المقاييس اليدوية والأداء الفعلي.

المساهمات الأساسية

  1. تقديم تعديل القنوات القابل للتعلم (LCP) لأول مرة: تحويل مشكلة تعديل القنوات المنفصلة إلى مشكلة تحسين قابلة للاشتقاق، مما يتيح التعلم من طرف إلى طرف.
  2. تقنية تطبيع Sinkhorn: استخدام تطبيع Sinkhorn لتخفيف مصفوفات التعديل المنفصلة إلى مصفوفات تعديل ناعمة، مما يحل مشكلة عدم قابلية اشتقاق مصفوفات التعديل.
  3. استراتيجية تعديل القنوات المقسمة: تقليل التعقيد البارامتري من O(C²ᵢₙ) إلى O(Cᵢₙ×B)، والتعقيد الحسابي من O(C³ᵢₙ) إلى O(Cᵢₙ×B²).
  4. تصميم إطار عمل عام: يمكن دمجه بسلاسة مع طرق القص لمرة واحدة الموجودة (Wanda و RIA وغيرها).
  5. أداء تجريبي متفوق: التحقق من فعالية الطريقة على نماذج متعددة مثل سلسلة LLaMA و Qwen و OPT.

شرح الطريقة

تعريف المهمة

بالنظر إلى مصفوفة أوزان مدربة مسبقًا W ∈ R^(Cout×Cin)، الهدف هو إيجاد مصفوفة التعديل الأمثل P بحيث تقلل مصفوفة الأوزان المعاد ترتيبها Ŵ = WP من الفرق مع النموذج الكثيف الأصلي بعد تطبيق التفرق N:M.

البنية التقنية الأساسية

1. تخفيف مصفوفة التعديل الناعم

تخفيف مصفوفة التعديل الصعبة P إلى مصفوفة تعديل ناعمة P̂:

S₀(X) = exp(X)
Sᵢ(X) = Tc(Tr(Sᵢ₋₁(X)))
S(X) = lim(l→∞) Sl(X)
P̂ = SL(WP/τ)

حيث يمثل Tr و Tc عمليات التطبيع حسب الصفوف والأعمدة على التوالي، و τ معامل درجة الحرارة الذي يتحكم في صلابة مصفوفة التعديل الناعمة.

2. عملية التصلب وتقريب التدرج

أثناء الانتشار الأمامي، يتم تصليب مصفوفة التعديل الناعمة إلى مصفوفة تعديل صارمة باستخدام خوارزمية المجر:

P = argmax P∈P Tr(P⊤P̂)

أثناء الانتشار العكسي، يتم استخدام مقدر المرور المباشر (STE) لتقريب التدرج: ∂P/∂P̂ = 1.

3. تعديل القنوات المقسمة

لتقليل التعقيد الحسابي، يتم تقسيم القنوات إلى عدة كتل بحجم B، مع إجراء تعديل مستقل داخل كل كتلة:

PB = diag(P₁, P₂, ..., PNB)
ŴB = WPB

ينخفض عدد المعاملات من C²ᵢₙ إلى Cᵢₙ×B، والتعقيد الحسابي من O(C³ᵢₙ) إلى O(Cᵢₙ×B²).

الهدف من التحسين

يقلل PermLLM بشكل مباشر من خسارة تشابه جيب التمام بين مخرجات النموذج الكثيف والمتفرق:

Lcosine(y, ỹ) = 1 - (y·ỹ)/(||y||·||ỹ||)

التكامل مع طرق القص الموجودة

يمكن دمج PermLLM مع أي طريقة قص لمرة واحدة قائمة على مقياس الأهمية. بالنسبة لمصفوفة أهمية معينة S، تصبح مصفوفة الأهمية المعدلة Ŝ = SPB، ويتم الحصول على القناع من خلال:

argmax M ∑∑ (M⊙Ŝ)i,kM:(k+1)M

استخدام STE للتعامل مع عدم قابلية اشتقاق argmax.

إعداد التجارب

مجموعات البيانات والنماذج

  • النماذج: LLaMA 7B-13B, LLaMA-2 7B-13B, LLaMA-3.1 8B, Qwen-2.5 7B, OPT 6.7B
  • بيانات المعايرة: 128 عينة مختارة عشوائيًا من مجموعة بيانات C4، كل منها يحتوي على 1024 رمز
  • مهام التقييم:
    • نمذجة اللغة: Wikitext2 (الارتباك)
    • مهام بدون عينات: HellaSwag, ARC-Easy/Challenge, OpenBookQA, RTE

طرق المقارنة

  • الطرق الأساسية: SparseGPT, Wanda, RIA
  • تعديل القنوات التقليدي: Wanda+CP, RIA+CP
  • طريقة هذه الورقة: PermLLMWanda, PermLLMRIA

تفاصيل التنفيذ

  • المحسّن: AdamW
  • معدل التعلم: {1e-3, 5e-3}
  • عدد تكرارات Sinkhorn: 5
  • معامل درجة الحرارة: تناقص خطي من 1 إلى 0.1
  • حجم الكتلة: 64
  • وقت التدريب: حوالي 2.5 ساعة للنموذج 7B (4 وحدات معالجة رسومات)، حوالي 5.5 ساعات للنموذج 13B (8 وحدات معالجة رسومات)

نتائج التجارب

النتائج الرئيسية

أداء نمذجة اللغة (ارتباك Wikitext2)

الطريقةLLaMA 7BLLaMA-2 7BLLaMA-3.1 8BQwen-2.5 7B
Dense5.685.476.247.74
Wanda11.5912.1623.4224.44
Wanda+CP11.0711.0021.0918.76
PermLLMWanda9.419.3914.0313.58
RIA+CP10.9910.2619.8017.58
PermLLMRIA9.959.6015.7915.93

متوسط دقة المهام بدون عينات

النموذجWandaWanda+CPPermLLMWandaالتحسن
LLaMA 7B41.3743.9445.67+4.3%
LLaMA-2 7B42.1243.4446.59+4.47%
LLaMA-3.1 8B38.9140.7243.33+4.42%

تأثير تسريع الاستدلال

باستخدام نوى CUDA مخصصة، تحقق عملية تعديل القنوات على تسريع 84× مقارنة بتطبيق PyTorch، مع تحسن سرعة الاستدلال الكلية بحوالي 1.67×.

تجارب الاستبعاد

تأثير عدد تكرارات تطبيع Sinkhorn

تظهر التجارب أن عدد تكرارات تطبيع Sinkhorn البالغ 5 يحقق توازنًا جيدًا في الأداء.

تأثير حجم الكتلة

حجم الكتلةمتوسط الدقةارتباك Wikitext2وقت التدريب
3243.589.502h
6446.599.392.5h
12847.099.076h

يوفر حجم الكتلة 64 أفضل توازن بين الأداء والكفاءة.

قوة مجموعة بيانات المعايرة

تظهر التجارب على مجموعات بيانات معايرة مختلفة (Pile, Wikitext2, C4) أن الطريقة تتمتع بقوة جيدة.

تحليل الحالات

توفر الورقة تصورًا للأقنعة (الشكل 3)، مما يوضح أن التعديل المتعلم بواسطة PermLLM ينتج عنه أنماط احتفاظ بالأوزان مختلفة عن الطرق التقليدية، مما يتحقق من فعالية التحسين من طرف إلى طرف.

الأعمال ذات الصلة

قص نماذج اللغات الكبيرة

  • القص المنظم: إزالة الهياكل الخشنة (القنوات والطبقات والكتل)
  • القص غير المنظم: الأكثر مرونة لكن يصعب تسريعه بالأجهزة
  • القص شبه المنظم: يوازن بين المرونة والصداقة مع الأجهزة

تقنيات تعديل القنوات

  • ركزت الأعمال المبكرة على البحث الشامل للشبكات الصغيرة
  • اقترحت RIA طريقة إسناد قنوات استكشافية
  • تقدم هذه الورقة لأول مرة طريقة تحسين قابلة للتعلم من طرف إلى طرف

تعلم التفرق N:M

  • تدرب طرق مثل SR-STE نماذج N:M متفرقة من الصفر
  • تتعلم طرق مثل MaskLLM التفرق شبه المنظم
  • تركز هذه الورقة على سيناريو القص بعد التدريب

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. فعالية الطريقة: يتفوق PermLLM بشكل كبير على طرق تعديل القنوات التقليدية على نماذج ومهام متعددة
  2. العمومية: يمكن دمجه بسلاسة مع طرق القص الموجودة
  3. الجدوى العملية: تحقق استراتيجية التقسيم ونوى CUDA المخصصة كفاءة حسابية عملية

القيود

  1. التكلفة الحسابية: على الرغم من أن استراتيجية التقسيم تقلل بشكل كبير من التعقيد، إلا أنها لا تزال تتطلب موارد حسابية أكثر من الطرق التقليدية
  2. نطاق التطبيق: الطريقة موجهة خصيصًا للقص شبه المنظم، وتطبيقها على مهام ضغط أخرى (مثل التكميم) لا يزال قيد الاستكشاف
  3. التقارب: تتطلب أحجام الكتل الكبيرة مزيدًا من التكرارات للتقارب

الاتجاهات المستقبلية

  1. استكشاف التطبيقات في مهام ضغط النماذج الأخرى مثل التكميم
  2. تحسين كفاءة التدريب بشكل أكبر
  3. دراسة استراتيجيات تحسين الطبقات الجزئية الأكثر كفاءة

التقييم المتعمق

المزايا

  1. الابتكار التقني قوي: تحويل مشكلة تعديل القنوات إلى مشكلة قابلة للتعلم من طرف إلى طرف لأول مرة، مع مسار تقني جديد
  2. الأساس النظري متين: استخدام تطبيع Sinkhorn و STE معًا معقول من الناحية النظرية
  3. التجارب شاملة: تقييم شامل على نماذج وبيانات ومهام متعددة
  4. التنفيذ الهندسي متقن: توفير نوى CUDA مخصصة مع مراعاة احتياجات النشر الفعلي
  5. الكتابة واضحة: هيكل الورقة واضح وتفاصيل تقنية دقيقة

أوجه القصور

  1. التكلفة الحسابية: على الرغم من استراتيجية التقسيم، لا تزال تكاليف التدريب مرتفعة نسبيًا
  2. التحليل النظري غير كافٍ: يفتقد تحليل التقارب والضمانات النظرية
  3. قيود نطاق التطبيق: ينطبق بشكل أساسي على التفرق N:M، والقابلية للتعميم تحتاج إلى التحقق
  4. مقارنة الخطوط الأساسية: المقارنة مع بعض طرق القص الحديثة غير كافية

القيمة التأثيرية

  1. القيمة الأكاديمية: فتح مسار تقني جديد لبحث تعديل القنوات
  2. القيمة العملية: تطبيق مباشر في مجال ضغط نماذج اللغات الكبيرة
  3. قابلية التكرار: توفير تطبيق كود كامل وإعدادات تجريبية مفصلة

السيناريوهات المناسبة

  1. نشر نماذج اللغات الكبيرة: مناسب بشكل خاص لسيناريوهات نشر N:M المتفرقة التي تتطلب تسريعًا بالأجهزة
  2. البيئات محدودة الموارد: السعي لتحقيق جودة ضغط أعلى عندما تكون موارد الحوسبة كافية
  3. النماذج الأولية البحثية: توفير أساس تقني لأبحاث القص والضغط الإضافية

المراجع

تستشهد الورقة بـ 66 مرجعًا ذا صلة، تغطي بشكل أساسي:

  • الأعمال الأساسية لنماذج اللغات الكبيرة (GPT و LLaMA وغيرها)
  • الطرق الكلاسيكية لقص الشبكات (Magnitude Pruning و SparseGPT وغيرها)
  • الأبحاث المتعلقة بالتفرق N:M (RIA و SR-STE وغيرها)
  • أساسيات نظرية التحسين (تطبيع Sinkhorn وخوارزمية المجر وغيرها)

التقييم الشامل: هذه ورقة عالية الجودة تتمتع بابتكار تقني قوي وتجارب شاملة وتنفيذ هندسي متقن. من خلال تحويل مشكلة التحسين المنفصلة إلى مشكلة تحسين مستمرة، حققت تقدمًا حقيقيًا في تقنية تعديل القنوات. على الرغم من وجود قيود في التكلفة الحسابية ونطاق التطبيق، فإن مساهمتها في مجال ضغط نماذج اللغات الكبيرة كبيرة وذات قيمة أكاديمية وعملية مهمة.