2025-11-19T13:07:13.821194

TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning

Beck, Rudman, Eickhoff

Large Language Models (LLMs) present significant computational and memory challenges due to their extensive size, making pruning essential for their efficient deployment. Existing one-shot pruning methods often apply uniform sparsity constraints across layers or within each layer, resulting in suboptimal performance, especially at high sparsity ratios. This work introduces TRIM (Targeted Row-wise Iterative Metric-driven pruning), a novel approach that applies varying sparsity ratios to individual output dimensions (rows) within each layer. TRIM employs an iterative adjustment process guided by quality metrics to optimize dimension-wise sparsity allocation, focusing on reducing variance in quality retention across outputs to preserve critical information. TRIM can be seamlessly integrated with existing layer-wise pruning strategies. Our evaluations on perplexity and zero-shot tasks across diverse LLM families (Qwen2.5, LLaMA-2, and OPT) and sparsity levels demonstrate that TRIM achieves new state-of-the-art results and enhances stability. For instance, at 80% sparsity, TRIM reduces perplexity by 48% for Qwen2.5-14B and over 90% for OPT-13B compared to baseline methods. We conclude that fine-grained, dimension-wise sparsity adaptation is crucial for pushing the limits of extreme LLM compression. Code available at: https://github.com/flobk/TRIM

academic

TRIM: تحقيق الندرة الشديدة من خلال القص الموجه على مستوى الصفوف والمدفوع بالمقاييس التكراري

المعلومات الأساسية

معرّف الورقة: 2505.16743
العنوان: TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning
المؤلفون: فلورنتين بيك (جامعة توبنغن)، ويليام رودمان (جامعة تكساس في أوستن)، كارستن إيكهوف (جامعة توبنغن)
التصنيف: cs.CL cs.AI cs.LG
تاريخ النشر: 11 أكتوبر 2025 (arXiv v2)
رابط الورقة: https://arxiv.org/abs/2505.16743
رابط الكود: https://github.com/flobk/TRIM

الملخص

تشكل نماذج اللغة الكبيرة (LLMs) تحديات حسابية وذاكرة ضخمة بسبب حجم معاملاتها الهائل، مما يجعل قص النموذج ضروريًا لنشره بكفاءة. تطبق طرق القص الفردية الحالية عادةً قيود ندرة موحدة عبر الطبقات أو داخل الطبقات، مما يؤدي إلى أداء ضعيفة عند معدلات ندرة عالية. تقترح هذه الورقة TRIM (القص الموجه على مستوى الصفوف والمدفوع بالمقاييس التكراري)، وهي طريقة جديدة تطبق معدلات ندرة مختلفة لكل بُعد إخراج (صف) داخل كل طبقة. يستخدم TRIM عملية تعديل تكرارية موجهة بمقاييس الجودة لتحسين توزيع الندرة على مستوى البُعد، مع التركيز على تقليل التباين في الحفاظ على الجودة عبر الإخراجات للحفاظ على المعلومات الحرجة. يمكن دمج TRIM بسلاسة مع استراتيجيات القص على مستوى الطبقات الموجودة. تُظهر تقييمات الحيرة والمهام الخالية من العينات عبر عائلات LLM متعددة (Qwen2.5 و LLaMA-2 و OPT) ومستويات الندرة أن TRIM حقق نتائج متقدمة جديدة وحسّن الاستقرار. على سبيل المثال، عند معدل ندرة 80%، يقلل TRIM الحيرة لـ Qwen2.5-14B بنسبة 48% وحيرة OPT-13B بأكثر من 90% مقارنة بطرق الأساس.

خلفية البحث والدافع

تعريف المشكلة

مع النمو الأسي في حجم معاملات نماذج اللغة الكبيرة، يواجه نشر النموذج تحديات خطيرة في موارد الذاكرة والحساب. بينما يجلب نمو المعاملات تحسينات في الأداء والقدرات الناشئة، فإنه يجعل الاستدلال في البيئات محدودة الموارد صعبًا.

قيود الطرق الموجودة

قيود الندرة الموحدة: تطبق طرق القص الفردية الموجودة (مثل Wanda و OWL و AlphaPruning) عادةً نفس معدل الندرة على جميع الطبقات أو جميع أبعاد الإخراج داخل الطبقة
انخفاض الأداء الحاد عند معدلات الندرة العالية: عند الندرة الشديدة (>70%)، تؤدي الاستراتيجيات الموحدة إلى تدهور كبير في الأداء
تجاهل عدم التجانس البُعدي: توجد اختلافات كبيرة في حساسية وأهمية أبعاد الإخراج المختلفة للقص

دافع البحث

تلاحظ الورقة أن نماذج اللغة الكبيرة تمتلك خصائص وزن وتفعيل فريدة، مثل الميزات البارزة والتوزيعات المنحرفة للتفعيل. تشير هذه الخصائص إلى أن أبعاد الإخراج المختلفة داخل الطبقة لها حساسيات قص مختلفة، وبالتالي تتطلب استراتيجية توزيع ندرة أكثر دقة.

المساهمات الأساسية

توزيع الندرة على مستوى البُعد الأول من نوعه: تقترح أول خوارزمية لحساب معدلات ندرة مختلفة لكل بُعد إخراج داخل كل طبقة
أداء SOTA عند الندرة الشديدة: عند معدل ندرة 80%، تقلل بشكل كبير الحيرة مقارنة بالطرق الموجودة (Qwen2.5-14B بنسبة 48%، OPT-13B بأكثر من 90%)
تحليل تجريبي متعمق: تكشف عن عدم التجانس في أبعاد الإخراج من حيث حساسية القص وأهمية المهام النهائية
تصميم قابل للتوصيل: يمكن دمج TRIM مع أي خوارزمية قص قائمة على تسجيل الأهمية، مع قابلية عامة جيدة

شرح الطريقة

تعريف المهمة

بالنظر إلى مصفوفة الأوزان W ∈ R^(D×N)، حيث D هو عدد أبعاد الإخراج و N هو عدد أبعاد الإدخال، الهدف هو تحديد معدل الندرة الأمثل Si لكل بُعد إخراج Wi,:، بحيث يتم تعظيم الجودة الإجمالية للطبقة مع تلبية قيود معدل الندرة المتوسط.

الخوارزمية الأساسية: TRIM

متجه الندرة على مستوى البُعد

يحدد TRIM متجه الندرة على مستوى البُعد S = S1, S2, ..., SD، حيث Si ∈ 0,1 يحدد معدل الندرة المستهدف للبُعد الإخراج i. القيد هو:

1/D * Σ(i=1 to D) Si = T

حيث T هو معدل الندرة المستهدف للطبقة.

خوارزمية التعديل التكراري

الخوارزمية 1: تعديل الندرة على مستوى البُعد التكراري

التهيئة: حساب الإخراج غير المقصوص Y ← WX، تهيئة Si = T (توزيع موحد)
التحسين التكراري (K مرات):
- قص بناءً على S الحالي للحصول على Wpruned
- حساب الإخراج المقصوص Ŷ ← WprunedX
- تقييم الجودة الإجمالية qk ← Qmetric(Y, Ŷ)
- تحديث أفضل تكوين (إذا كان qk > qbest)
- حساب جودة كل بُعد ci ← QmetricDimwise(Yi,:, Ŷi,:)
- تطبيع درجات الجودة إلى نطاق 0,1
- تعديل معدلات الندرة بناءً على معدل التعلم α: δi ← αc'i
- إعادة توسيط للحفاظ على القيد المتوسط: Si ← δi - (1/D)Σδj + T
الإرجاع: توزيع الندرة الأمثل Sbest

مقاييس الجودة

الجودة على مستوى الطبقة: استخدام تشابه جيب التمام لتقييم جودة القص للطبقة بأكملها
الجودة على مستوى البُعد: حساب تشابه جيب التمام لكل بُعد إخراج، لتوجيه تعديل معدل الندرة

نقاط الابتكار التقني

معدل تعلم تكيفي: يدعم معدلات تعلم موجبة وسالبة، معدل التعلم الموجب يقلل تباين الجودة، معدل التعلم السالب مناسب للطبقات التي تتركز فيها القيم الشاذة
تقليل تباين الجودة: تحسين الأداء الإجمالية من خلال تقليل تباين تدهور الجودة عبر الأبعاد
تصميم التوافقية: يمكن دمجه مع قواعد التسجيل الموجودة (Wanda و Magnitude و SparseGPT و GBLM)

إعداد التجارب

مجموعات البيانات

النماذج: Qwen2.5 (3B/7B/14B/32B/72B) و LLaMA-2 (7B/13B) و OPT (6.7B/13B)
بيانات التقييم: مجموعة التحقق من WikiText (الحيرة) و C4 و Pile (التحقق من التعميم)
المهام النهائية: BoolQ و RTE و HellaSwag و WinoGrande و ARC Easy/Challenge و OpenBookQA

مؤشرات التقييم

الحيرة: تقييم القدرة على نمذجة اللغة على مجموعة التحقق من WikiText
دقة خالية من العينات: متوسط الأداء على 7 مهام نهائية

طرق المقارنة

طرق الأساس: OWL و AlphaPruning (بناءً على Wanda)
دراسات الاستئصال: تأثير مقاييس الجودة المختلفة وإعدادات معدل التعلم وعدد التكرارات

تفاصيل التنفيذ

عينات المعايرة: مختارة عشوائيًا من مجموعة بيانات C4، بطول تسلسل 2048
حدود معدل الندرة: الحد الأقصى 95% لكل بُعد لمنع الإفراط في التدريب
المعاملات الفائقة: K=10 تكرارات، معدل التعلم α يتم تحديده من خلال البحث الشبكي

نتائج التجارب

النتائج الرئيسية

أداء الحيرة (معدل ندرة 80%)

النموذج	أساس OWL	OWL+TRIM	حجم التحسن
Qwen2.5-14B	348.48	180.67	-48%
OPT-13B	6461.43	324.14	-95%
LLaMA-2-13B	225.04	154.83	-31%

أداء المهام الخالية من العينات

حقق TRIM تحسينات في الأداء عبر جميع النماذج المختبرة ومستويات الندرة، مع تحسن متوسط 0.46-0.65 نقطة مئوية عند معدل ندرة 80%.

دراسات الاستئصال

مقارنة مقاييس الجودة

الجودة على مستوى الطبقة: تشابه جيب التمام يُظهر أداء الأكثر استقرارًا
الجودة على مستوى البُعد: تشابه جيب التمام أكثر موثوقية مقارنة بـ MSE و PSNR

قابلية التعميم عبر مؤشرات القص المختلفة

يُظهر TRIM تحسينات عبر قواعس التسجيل المختلفة (Magnitude و SparseGPT و GBLM)، مما يتحقق من قابلية عامة الطريقة.

الاكتشافات الرئيسية

الملاحظة 1: عدم التجانس البُعدي

يكشف تحليل معامل جيني عن اختلافات كبيرة في تركيز درجات الأهمية عبر أبعاد الإخراج المختلفة، مما يؤدي إلى حساسيات قص مختلفة.

الملاحظة 2: تدهور الجودة غير الخطي

مع زيادة معدل الندرة، يُظهر تدهور الجودة اتجاهًا متسارعًا، مما يجعل التوزيع الدقيق أكثر أهمية.

الملاحظة 3: اختلافات أهمية البُعد

تُظهر التجارب أن تأثير إزالة بُعد واحد بالكامل يختلف بشكل كبير:

بُعد أصغر معيار L2: زيادة الحيرة بمقدار 0.16 فقط
بُعد أكبر معيار L2: قفزة الحيرة إلى 273.10

الأعمال ذات الصلة

تصنيف طرق القص

الطرق القائمة على التدرج: SNIP و GraSP و SynFlow وغيرها، تتطلب معلومات التدرج وإعادة التدريب
طرق القص الفردية: SparseGPT و Wanda وغيرها، لا تتطلب إعادة تدريب لكن الأداء محدودة
طرق التكيف على مستوى الطبقة: OWL و AlphaPruning وغيرها، توزع معدلات ندرة مختلفة على طبقات مختلفة

موضع TRIM

TRIM هي أول طريقة تجري توزيع ندرة على مستوى البُعد داخل الطبقة، مما يملأ فجوة في التحكم الدقيق في الطرق الموجودة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ضرورة توزيع الندرة على مستوى البُعد: عند الندرة الشديدة، يعتبر التحكم الدقيق حاسمًا للحفاظ على أداء النموذج
فعالية تقليل تباين الجودة: يمكن تحسين الأداء الإجمالية بشكل كبير من خلال موازنة تدهور الجودة عبر الأبعاد
قابلية عامة الطريقة: يمكن دمج TRIM مع خوارزميات قص موجودة متعددة، مع قابلية توسع جيدة

القيود

تعقيد اختيار معدل التعلم: تتطلب الطبقات التي تتركز فيها القيم الشاذة معدل تعلم سالب، مما يزيد من تعقيد ضبط المعاملات الفائقة
الندرة غير المنظمة: لا تدعم الطريقة الحالية مباشرة أنماط ندرة منظمة مثل n:m
التكلفة الحسابية: تضيف العملية التكرارية حوالي 8% من وقت التشغيل

الاتجاهات المستقبلية

دعم الندرة المنظمة: توسيع TRIM لدعم أنماط ندرة صديقة للأجهزة
اختيار معدل التعلم التلقائي: تطوير آليات تكيفية لتقليل احتياجات ضبط المعاملات الفائقة
التحليل النظري: إنشاء إطار نظري لأهمية البُعد وحساسية القص

التقييم المتعمق

المميزات

ابتكار قوي: أول من يقترح توزيع ندرة على مستوى البُعد، بفكرة جديدة
تجارب شاملة: التحقق من فعالية الطريقة عبر عائلات نماذج متعددة ومهام
دعم نظري: يكشف من خلال التحليل المتعمق عن الأسباب الجذرية لفعالية الطريقة
قيمة عملية عالية: يجعل التصميم القابل للتوصيل من السهل دمجه في الأنظمة الموجودة

أوجه القصور

تعقيد الطريقة: تضيف تعقيدًا خوارزميًا ومعاملات فائقة مقارنة بطرق الأساس
توافقية الأجهزة: تحد الندرة غير المنظمة من تأثيرات التسريع على الأجهزة المتخصصة
نقص التحليل النظري: تفتقر إلى ضمانات نظرية لتوزيع الندرة الأمثل

التأثير

المساهمة الأكاديمية: توفر اتجاهًا بحثيًا جديدًا لمجال قص نماذج اللغة الكبيرة
القيمة العملية: لها أهمية كبيرة لنشر النماذج الكبيرة في البيئات محدودة الموارد
قابلية إعادة الإنتاج: توفير كود مفتوح المصدر يسهل البحث اللاحق

السيناريوهات المناسبة

احتياجات الندرة الشديدة: مناسبة بشكل خاص للسيناريوهات التي تتطلب >70% ندرة
البيئات محدودة الموارد: الأجهزة الطرفية والأجهزة المحمولة وغيرها من السيناريوهات محدودة الموارد الحسابية
الأغراض البحثية: توفير معايير جديدة وأفكار لبحث خوارزميات القص

المراجع

تستشهد الورقة بأعمال مهمة في مجال القص، بما في ذلك:

طرق القص الكلاسيكية: Le Cun et al. (1989)، Han et al. (2015)
قص نماذج اللغة الكبيرة الحديثة: Sun et al. (2024) Wanda، Frantar and Alistarh (2023) SparseGPT
طرق التكيف على مستوى الطبقة: Yin et al. (2024) OWL، Lu et al. (2024) AlphaPruning

الملخص: يحقق TRIM من خلال إدخال توزيع ندرة على مستوى البُعد تحسينات كبيرة في أداء قص نماذج اللغة الكبيرة عند الندرة الشديدة. تتمتع الطريقة بقيمة نظرية وعملية مهمة، وتفتح اتجاهًا بحثيًا جديدًا لمجال ضغط النماذج الكبيرة. على الرغم من وجود بعض القيود، فإن ابتكارها وفعاليتها تجعلها مساهمة مهمة في هذا المجال.