Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM
- معرّف الورقة: 2505.16743
- العنوان: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
- المؤلفون: فلورنتين بيك (جامعة توبنغن)، ويليام رودمان (جامعة تكساس في أوستن)، كارستن إيكهوف (جامعة توبنغن)
- التصنيف: cs.CL cs.AI cs.LG
- تاريخ النشر: 11 أكتوبر 2025 (arXiv v2)
- رابط الورقة: https://arxiv.org/abs/2505.16743
- رابط الكود: https://github.com/flobk/TRIM
تشكل نماذج اللغة الكبيرة (LLMs) تحديات حسابية وذاكرة ضخمة بسبب حجم معاملاتها الهائل، مما يجعل قص النموذج ضروريًا لنشره بكفاءة. تطبق طرق القص الفردية الحالية عادةً قيود ندرة موحدة عبر الطبقات أو داخل الطبقات، مما يؤدي إلى أداء ضعيفة عند معدلات ندرة عالية. تقترح هذه الورقة TRIM (القص الموجه على مستوى الصفوف والمدفوع بالمقاييس التكراري)، وهي طريقة جديدة تطبق معدلات ندرة مختلفة لكل بُعد إخراج (صف) داخل كل طبقة. يستخدم TRIM عملية تعديل تكرارية موجهة بمقاييس الجودة لتحسين توزيع الندرة على مستوى البُعد، مع التركيز على تقليل التباين في الحفاظ على الجودة عبر الإخراجات للحفاظ على المعلومات الحرجة. يمكن دمج TRIM بسلاسة مع استراتيجيات القص على مستوى الطبقات الموجودة. تُظهر تقييمات الحيرة والمهام الخالية من العينات عبر عائلات LLM متعددة (Qwen2.5 و LLaMA-2 و OPT) ومستويات الندرة أن TRIM حقق نتائج متقدمة جديدة وحسّن الاستقرار. على سبيل المثال، عند معدل ندرة 80%، يقلل TRIM الحيرة لـ Qwen2.5-14B بنسبة 48% وحيرة OPT-13B بأكثر من 90% مقارنة بطرق الأساس.
مع النمو الأسي في حجم معاملات نماذج اللغة الكبيرة، يواجه نشر النموذج تحديات خطيرة في موارد الذاكرة والحساب. بينما يجلب نمو المعاملات تحسينات في الأداء والقدرات الناشئة، فإنه يجعل الاستدلال في البيئات محدودة الموارد صعبًا.
- قيود الندرة الموحدة: تطبق طرق القص الفردية الموجودة (مثل Wanda و OWL و AlphaPruning) عادةً نفس معدل الندرة على جميع الطبقات أو جميع أبعاد الإخراج داخل الطبقة
- انخفاض الأداء الحاد عند معدلات الندرة العالية: عند الندرة الشديدة (>70%)، تؤدي الاستراتيجيات الموحدة إلى تدهور كبير في الأداء
- تجاهل عدم التجانس البُعدي: توجد اختلافات كبيرة في حساسية وأهمية أبعاد الإخراج المختلفة للقص
تلاحظ الورقة أن نماذج اللغة الكبيرة تمتلك خصائص وزن وتفعيل فريدة، مثل الميزات البارزة والتوزيعات المنحرفة للتفعيل. تشير هذه الخصائص إلى أن أبعاد الإخراج المختلفة داخل الطبقة لها حساسيات قص مختلفة، وبالتالي تتطلب استراتيجية توزيع ندرة أكثر دقة.
- توزيع الندرة على مستوى البُعد الأول من نوعه: تقترح أول خوارزمية لحساب معدلات ندرة مختلفة لكل بُعد إخراج داخل كل طبقة
- أداء SOTA عند الندرة الشديدة: عند معدل ندرة 80%، تقلل بشكل كبير الحيرة مقارنة بالطرق الموجودة (Qwen2.5-14B بنسبة 48%، OPT-13B بأكثر من 90%)
- تحليل تجريبي متعمق: تكشف عن عدم التجانس في أبعاد الإخراج من حيث حساسية القص وأهمية المهام النهائية
- تصميم قابل للتوصيل: يمكن دمج TRIM مع أي خوارزمية قص قائمة على تسجيل الأهمية، مع قابلية عامة جيدة
بالنظر إلى مصفوفة الأوزان W ∈ R^(D×N)، حيث D هو عدد أبعاد الإخراج و N هو عدد أبعاد الإدخال، الهدف هو تحديد معدل الندرة الأمثل Si لكل بُعد إخراج Wi,:، بحيث يتم تعظيم الجودة الإجمالية للطبقة مع تلبية قيود معدل الندرة المتوسط.
يحدد TRIM متجه الندرة على مستوى البُعد S = S1, S2, ..., SD، حيث Si ∈ 0,1 يحدد معدل الندرة المستهدف للبُعد الإخراج i. القيد هو:
حيث T هو معدل الندرة المستهدف للطبقة.
الخوارزمية 1: تعديل الندرة على مستوى البُعد التكراري
- التهيئة: حساب الإخراج غير المقصوص Y ← WX، تهيئة Si = T (توزيع موحد)
- التحسين التكراري (K مرات):
- قص بناءً على S الحالي للحصول على Wpruned
- حساب الإخراج المقصوص Ŷ ← WprunedX
- تقييم الجودة الإجمالية qk ← Qmetric(Y, Ŷ)
- تحديث أفضل تكوين (إذا كان qk > qbest)
- حساب جودة كل بُعد ci ← QmetricDimwise(Yi,:, Ŷi,:)
- تطبيع درجات الجودة إلى نطاق 0,1
- تعديل معدلات الندرة بناءً على معدل التعلم α: δi ← αc'i
- إعادة توسيط للحفاظ على القيد المتوسط: Si ← δi - (1/D)Σδj + T
- الإرجاع: توزيع الندرة الأمثل Sbest
- الجودة على مستوى الطبقة: استخدام تشابه جيب التمام لتقييم جودة القص للطبقة بأكملها
- الجودة على مستوى البُعد: حساب تشابه جيب التمام لكل بُعد إخراج، لتوجيه تعديل معدل الندرة
- معدل تعلم تكيفي: يدعم معدلات تعلم موجبة وسالبة، معدل التعلم الموجب يقلل تباين الجودة، معدل التعلم السالب مناسب للطبقات التي تتركز فيها القيم الشاذة
- تقليل تباين الجودة: تحسين الأداء الإجمالية من خلال تقليل تباين تدهور الجودة عبر الأبعاد
- تصميم التوافقية: يمكن دمجه مع قواعد التسجيل الموجودة (Wanda و Magnitude و SparseGPT و GBLM)
- النماذج: Qwen2.5 (3B/7B/14B/32B/72B) و LLaMA-2 (7B/13B) و OPT (6.7B/13B)
- بيانات التقييم: مجموعة التحقق من WikiText (الحيرة) و C4 و Pile (التحقق من التعميم)
- المهام النهائية: BoolQ و RTE و HellaSwag و WinoGrande و ARC Easy/Challenge و OpenBookQA
- الحيرة: تقييم القدرة على نمذجة اللغة على مجموعة التحقق من WikiText
- دقة خالية من العينات: متوسط الأداء على 7 مهام نهائية
- طرق الأساس: OWL و AlphaPruning (بناءً على Wanda)
- دراسات الاستئصال: تأثير مقاييس الجودة المختلفة وإعدادات معدل التعلم وعدد التكرارات
- عينات المعايرة: مختارة عشوائيًا من مجموعة بيانات C4، بطول تسلسل 2048
- حدود معدل الندرة: الحد الأقصى 95% لكل بُعد لمنع الإفراط في التدريب
- المعاملات الفائقة: K=10 تكرارات، معدل التعلم α يتم تحديده من خلال البحث الشبكي
| النموذج | أساس OWL | OWL+TRIM | حجم التحسن |
|---|
| Qwen2.5-14B | 348.48 | 180.67 | -48% |
| OPT-13B | 6461.43 | 324.14 | -95% |
| LLaMA-2-13B | 225.04 | 154.83 | -31% |
حقق TRIM تحسينات في الأداء عبر جميع النماذج المختبرة ومستويات الندرة، مع تحسن متوسط 0.46-0.65 نقطة مئوية عند معدل ندرة 80%.
- الجودة على مستوى الطبقة: تشابه جيب التمام يُظهر أداء الأكثر استقرارًا
- الجودة على مستوى البُعد: تشابه جيب التمام أكثر موثوقية مقارنة بـ MSE و PSNR
يُظهر TRIM تحسينات عبر قواعس التسجيل المختلفة (Magnitude و SparseGPT و GBLM)، مما يتحقق من قابلية عامة الطريقة.
يكشف تحليل معامل جيني عن اختلافات كبيرة في تركيز درجات الأهمية عبر أبعاد الإخراج المختلفة، مما يؤدي إلى حساسيات قص مختلفة.
مع زيادة معدل الندرة، يُظهر تدهور الجودة اتجاهًا متسارعًا، مما يجعل التوزيع الدقيق أكثر أهمية.
تُظهر التجارب أن تأثير إزالة بُعد واحد بالكامل يختلف بشكل كبير:
- بُعد أصغر معيار L2: زيادة الحيرة بمقدار 0.16 فقط
- بُعد أكبر معيار L2: قفزة الحيرة إلى 273.10
- الطرق القائمة على التدرج: SNIP و GraSP و SynFlow وغيرها، تتطلب معلومات التدرج وإعادة التدريب
- طرق القص الفردية: SparseGPT و Wanda وغيرها، لا تتطلب إعادة تدريب لكن الأداء محدودة
- طرق التكيف على مستوى الطبقة: OWL و AlphaPruning وغيرها، توزع معدلات ندرة مختلفة على طبقات مختلفة
TRIM هي أول طريقة تجري توزيع ندرة على مستوى البُعد داخل الطبقة، مما يملأ فجوة في التحكم الدقيق في الطرق الموجودة.
- ضرورة توزيع الندرة على مستوى البُعد: عند الندرة الشديدة، يعتبر التحكم الدقيق حاسمًا للحفاظ على أداء النموذج
- فعالية تقليل تباين الجودة: يمكن تحسين الأداء الإجمالية بشكل كبير من خلال موازنة تدهور الجودة عبر الأبعاد
- قابلية عامة الطريقة: يمكن دمج TRIM مع خوارزميات قص موجودة متعددة، مع قابلية توسع جيدة
- تعقيد اختيار معدل التعلم: تتطلب الطبقات التي تتركز فيها القيم الشاذة معدل تعلم سالب، مما يزيد من تعقيد ضبط المعاملات الفائقة
- الندرة غير المنظمة: لا تدعم الطريقة الحالية مباشرة أنماط ندرة منظمة مثل n:m
- التكلفة الحسابية: تضيف العملية التكرارية حوالي 8% من وقت التشغيل
- دعم الندرة المنظمة: توسيع TRIM لدعم أنماط ندرة صديقة للأجهزة
- اختيار معدل التعلم التلقائي: تطوير آليات تكيفية لتقليل احتياجات ضبط المعاملات الفائقة
- التحليل النظري: إنشاء إطار نظري لأهمية البُعد وحساسية القص
- ابتكار قوي: أول من يقترح توزيع ندرة على مستوى البُعد، بفكرة جديدة
- تجارب شاملة: التحقق من فعالية الطريقة عبر عائلات نماذج متعددة ومهام
- دعم نظري: يكشف من خلال التحليل المتعمق عن الأسباب الجذرية لفعالية الطريقة
- قيمة عملية عالية: يجعل التصميم القابل للتوصيل من السهل دمجه في الأنظمة الموجودة
- تعقيد الطريقة: تضيف تعقيدًا خوارزميًا ومعاملات فائقة مقارنة بطرق الأساس
- توافقية الأجهزة: تحد الندرة غير المنظمة من تأثيرات التسريع على الأجهزة المتخصصة
- نقص التحليل النظري: تفتقر إلى ضمانات نظرية لتوزيع الندرة الأمثل
- المساهمة الأكاديمية: توفر اتجاهًا بحثيًا جديدًا لمجال قص نماذج اللغة الكبيرة
- القيمة العملية: لها أهمية كبيرة لنشر النماذج الكبيرة في البيئات محدودة الموارد
- قابلية إعادة الإنتاج: توفير كود مفتوح المصدر يسهل البحث اللاحق
- احتياجات الندرة الشديدة: مناسبة بشكل خاص للسيناريوهات التي تتطلب >70% ندرة
- البيئات محدودة الموارد: الأجهزة الطرفية والأجهزة المحمولة وغيرها من السيناريوهات محدودة الموارد الحسابية
- الأغراض البحثية: توفير معايير جديدة وأفكار لبحث خوارزميات القص
تستشهد الورقة بأعمال مهمة في مجال القص، بما في ذلك:
- طرق القص الكلاسيكية: Le Cun et al. (1989)، Han et al. (2015)
- قص نماذج اللغة الكبيرة الحديثة: Sun et al. (2024) Wanda، Frantar and Alistarh (2023) SparseGPT
- طرق التكيف على مستوى الطبقة: Yin et al. (2024) OWL، Lu et al. (2024) AlphaPruning
الملخص: يحقق TRIM من خلال إدخال توزيع ندرة على مستوى البُعد تحسينات كبيرة في أداء قص نماذج اللغة الكبيرة عند الندرة الشديدة. تتمتع الطريقة بقيمة نظرية وعملية مهمة، وتفتح اتجاهًا بحثيًا جديدًا لمجال ضغط النماذج الكبيرة. على الرغم من وجود بعض القيود، فإن ابتكارها وفعاليتها تجعلها مساهمة مهمة في هذا المجال.