COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
Kwek, Yin
Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
academic
COMPACT: تحسين نموذج الحذف المشترك عبر القنوات والرموز
تقدم هذه الورقة طريقة COMPACT للحذف الموجه نحو حل مشاكل الكفاءة في نماذج اللغة الكبيرة (LLM) من حيث الذاكرة والكمون وتكاليف الخدمة. تجمع الطريقة بين حذف المفردات وحذف قنوات FFN المرجح بناءً على الرموز الشائعة، مما يحقق ضغط المعاملات مع الحفاظ على معمارية المحول القياسية. تم التحقق من فعالية الطريقة على عائلات نماذج Qwen و LLaMA و Gemma (0.5B-70B معامل).
على الرغم من أن نماذج اللغة الكبيرة تظهر أداءً ممتازاً في مختلف مهام معالجة اللغات الطبيعية، إلا أن عدد معاملاتها الضخم (من مليارات إلى مئات المليارات) يؤدي إلى تكاليف نشر عالية، مما يحد من تطبيقاتها على الأجهزة الطرفية والتطبيقات التفاعلية والاستدلال على نطاق واسع.
وجود اختلافات كبيرة في توزيع المعاملات بين النماذج ذات الأحجام المختلفة: تحتل معاملات المفردات نسبة أكبر في النماذج الصغيرة، بينما تهيمن معاملات FFN على النماذج الكبيرة
تتبع اللغات الطبيعية توزيع Zipf، حيث تظهر الرموز النادرة بتكرار منخفض جداً وتساهم بشكل محدود في الأداء اللاحقة
الخوارزمية 1 COMPACT
الإدخال: النموذج M، مجموعة بيانات المعايرة D، حجم المفردات المستهدف V'، البعد الوسيط المستهدف I'
1. تحديد مجموعة أندر V-V' رموز S
2. تشغيل الانتشار الأمامي على مجموعة البيانات D، جمع التفعيلات المربعة
3. لكل قناة k، حساب الأهمية Ik باستخدام common act²
4. لكل طبقة: حذف I-I' قنوات الأقل أهمية
5. حذف معاملات المفردات: إزالة آخر V-V' صف من مصفوفات embedding و LM head
6. إرجاع النموذج المحذوف M'
تستشهد الورقة بعدد كبير من الأعمال ذات الصلة، تشمل بشكل أساسي:
طرق التكمية: GPTQ (Frantar et al., 2022), AWQ (Lin et al., 2024)
حذف العمق: Shortened LLaMA (Kim et al., 2024), LaCo (Yang et al., 2024)
حذف العرض: SliceGPT (Ashkboos et al., 2024), FLAP (An et al., 2024)
معالجة المفردات: أعمال ذات صلة بحذف المفردات متعددة اللغات والخاصة بالمجال
التقييم الإجمالي: هذه ورقة تتمتع بأساس تقني متين وقيمة عملية قوية. بينما تكون الابتكارات النظرية محدودة نسبياً، إلا أن الجمع الذكي بين الطرق والتحقق التجريبي الشامل يساهم بحل فعال وسهل النشر لمجال حذف نماذج اللغة الكبيرة. تجعل المزايا الخاصة في حذف نماذج اللغة الصغيرة والتوافق المعماري لها آفاق تطبيق جيدة.